大数据-MapRuduce

最新推荐文章于 2024-03-27 11:50:36 发布

天才的汉堡叔叔

最新推荐文章于 2024-03-27 11:50:36 发布

阅读量730

点赞数

本文链接：https://blog.csdn.net/w576233728/article/details/82455032

版权

MapReduce是一种分布式编程框架，用于大规模数据集的并行运算。（可以说是一种编程方法，理论，思想，一种“分而治之”的策略）

下面用一种较为通俗的例子来引入这么一个概念及解释MapReduce的过程：

首先，我们有相当多的文本文档（可能有几千亿几万亿，反正很多），我们需要编程来统计词频，我们的一般方法是，写一个程序，把所有文件遍历一遍，可是，这也许需要花费相当长的时间。

那么，有没有更好的方法呢？

有，我们如果拥有一台多核或多处理器的计算机，我们可以利用多线程编程的方式，虽然编程难度会增加，可不失为一种更高效的方法。

那么，还有没有更好的方法呢？

是的，我们如果拥有很多计算机，可以把这么多文件分成N份，放到N台计算机上，分别执行统计的任务。但这样的部署同样也是一种巨大的工作量了。

那么，一定还有更好的方法吧？

当然，这里就引出了MapReduce，MapReduce实质上就是定义了上述分布式部署执行任务的方法。

一个作业（job）通常会被分为若干独立的数据块，由map任务（task）以完全并行的方式处理它们。框架会对map的输出先进行排序，然后把结果输入给reduce任务。（其实就是拆分任务并行处理，然后合并的过程）

因此，MapReduce主要可以概括为map阶段和reduce阶段。

（国际惯例，上个图）

MapReduce的大致执行流程：

1，client

用户编写MapReduce程序通过client提交到jobtracker端，也可通过client提供的一些借口查看运行的运行状态

2，jobtracker

jobtracker负责资源监控和作业调度

3，tasktracker

tasktracker会周期性地将本届点上资源地情况和任务情况汇报给jobtracker

下面将更加详细地深入到每个节点，看一看MapReduce的执行过程。

MapReduce的一般执行流程：

途中描绘了MapReduce的整个过程，下面进行一个详细的描述：

1，inputformat从job中得到一个split集合（RR为recodreader，负责读取inputsplit，生成键值对供mapper使用）

2，map接收键值对（key-value pair），产生一组中间结果的键值对。
（在统计词频的例子里，map函数接受的键是文件名，值是文件的内容，map逐个遍历单词，每遇到一个单词w，就产生一个中间键值对<w, "1">，这表示单词w咱又找到了一个；）

3，shuffle对map的输出结果进行分区（partition）,排序（sort），溢写（spill），合并（combine），归并（merge）等操作，并将结果传给reduce的过程。

4，reduce对传过来的键值对进行合并，产生最终结果。

（在统计词频的例子里，map传过来很多w单词的键值对，reduce对这个结果进行累加就是w单词的个数）

5，outputformat则接收最终结果，写入到HDFS中去。

那么，其中shuffle则是MapReduce中一个核心过程。（shuffle有洗牌的意思，其实是非常形象的）

对shuffle过程的期望则是：1，从map获得的保证数据完整性；2，减少在获取不同节点的数据时的带宽消耗；3，尽量利用内存而非硬盘，不让硬盘IO影响执行速度。

shuffle的详细过程是怎样的呢？

先看一个官方图解：

可见，shuffle贯穿与map和reduce过程。因此，shuffle过程的解释也应该分为map阶段和reduce阶段。

1，map阶段的shuffle

map任务结束后，根据分区（partition）决定该交由哪个reduce任务来进行后面的处理。然后将分区的结果<key,value,partition>序列化成字节组，写入缓冲区（缓冲区默认大小100M）。达到阈值后（80%）开始进行溢写（spill），将数据写到磁盘。在写入磁盘之前会进行一个快速排序：先根据partition排序，然后再对partition中key进行排序。通过merge将多个溢写文件合并到一个文件，则输出文件包括一个索引文件和数据文件（如果设定了combiner，则会在排序输出的基础上进行一个简单的reduce操作，使map输出更紧凑）

2，reduce阶段的shuffle

首先，将map阶段产生的输出文件根据partition，copy到reduce端。然后进行归并排序（merge），将copy的数据进行合并（一样会有spill和combine）。最后生成一个较大的文件作为reduce的输入。

总结起来，map阶段的shuffle可以总结为，分区，排序，溢写，合并。reduce阶段可以总结为复制，合并。

天才的汉堡叔叔

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
大数据-MapRuduce

MapReduce是一种分布式编程框架，用于大规模数据集的并行运算。（可以说是一种编程方法，理论，思想，一种“分而治之”的策略）下面用一种较为通俗的例子来引入这么一个概念及解释MapReduce的过程：首先，我们有相当多的文本文档（可能有几千亿几万亿，反正很多），我们需要编程来统计词频，我们的一般方法是，写一个程序，把所有文件遍历一遍，可是，这也许需要花费相当长的时间。那么，有没有更好...
复制链接

扫一扫