hadoop1——map到reduce中间的shuffle过程

最新推荐文章于 2023-07-22 11:34:30 发布

weixin_33963189

最新推荐文章于 2023-07-22 11:34:30 发布

阅读量116

点赞数

文章标签：大数据

原文链接：http://www.cnblogs.com/sy270321/p/4396494.html

版权

---恢复内容开始---

shuffle和排序

过程图如下：

MapReduce确保每个reduce的输入都按键排序，系统执行排序的过程——将map输出作为输入传给reduce——成为shuffle，理解shuffle的工作原理，有助于MapReduce程序的优化，因为shuffle属于不断被优化和改进的代码库的一部分，shuffle是MapReduce的心脏，是奇迹发生的地方

map端

　　map函数开始产生输出时，并不是简单的将它写到磁盘，这个过程非常复杂，它是利用缓冲的方式写到内存，并处于效率的考虑进行预排序。

　　每个map任务都有一个环形内存缓冲区，用于存储任务的输出，默认情况下，缓冲区的大小为100MB，此值可以通过改变io.sort.mb属性来调整，一旦缓冲区内容达到阀值(io.sort.spill.percent,默认为80%)，一个后台线程便开始把内容溢写到磁盘中，在写磁盘过程中，map输出继续被写到缓冲区，但如果再次期间缓冲区被填满，map会阻塞直到写磁盘过程完成。

　　写磁盘将按轮询方式写到mapred.local.dir属性指定的作业特定子目录中的目录中

　　在写磁盘之前，线程首先根据数据最终要传送到的reducer把数据划分成相应的分区(partition)。在每个分区中，后台线程按键进行内排序，如果有一个combiner，它会在排序后的输出上运行。

　　一旦内存缓冲区达到溢出写的阀值，就会新建一个溢出写文件，因此在map写完其最后一个输出记录之前，会有几个溢出写的文件，在任务完成之前，溢出写文件被合并成一个已分区且已排序的输出文件，配置属性io.sort.factor控制着一次最多能合并多少流，默认值是10.

　　如果已指定combiner，并且溢出写次数至少为3(min.num.spill.for.combiner属性的取值)时，则combiner就会在输出文件写到磁盘之前运行，combiner可以再输入上反复运行，但并不影响最终结果，运行combiner的意义在与使map的输出更紧凑，使得写到本地磁盘和传给reducer的数据更少。

　　写磁盘时压缩 map 输出往往是个很好的主意，因为这样会让写磁盘的速度更快，节约磁盘空间，并且减少传给 reducer 的数据量。默认情况下，输出是不压缩的，但只要将 mapred.compress map.output 设置为 true ，

　　reducer通过http方式得到输出文件的分区，用于文件分区的工作线程的数量由任务的tracker.http.threads属性控制，此设置针对每个tasktracker，而不是针对每个map任务槽，默认值是40，在运行大型作业的大型集群上，此值可以根据需要而增加

reducer端

　　现在转到处理过程的reduce部分，map输出文件位于map任务的tasttracker的本地磁盘上，现在tasktracker需要为分区文件运行reduce任务，更进一步，reduce任务需要集群上若干个map任务的输出作为其特殊的分区文件，每个map任务的完成时间可能不同，因此只要有一个任务完成，reduce任务就开始复制其输出，这就是reduce任务的复制阶段，reduce任务有少量复制线程，因此能够并行取得map输出，默认值是5个线程，这个默认值可以通过mapred.reduce.parallel.copies属性来改变。

　　reducer如何知道要从哪个tasktracker取得map输出呢？

　　map任务成功完成后，它们会通知其父tasktracker状态已更新，然后tasktracker通过心跳机制进而通知jobtracker。jobtracker知道map输出和tasktracker之间的映射关系，reducer中一个线程定期询问jobtracker以方便获取map的输出位置，直到它获得所有输出位置。由于reducer可能失败，因此，tasktracker并没有在第一个reducer检索到map输出时就立即从磁盘上删除它们，相反，tasktracker会等待，直到jobtrackr告知它可以删除map输出，这是作业完成后才执行的。

　　如果map输出相当小，则会被复制到reduce tasktraker的内存(缓冲区大小由mapred.job.shuffle.merge.percent决定)或达到map输出阀值(由mapred.inmem.merge.threshld控制),则合并后溢写到磁盘中。

　　随着磁盘上的副本的增多，后台线程会将它们合并为更大的，排序好的文件。这会为后面的合并节省一些时间，注意，为了合并，压缩的map输出(通过map任务)都必须在内存中被解压缩。

　　复制完所有map输出被复制期间，reduce任务进去合并阶段，这个阶段将合并map输出，维持其顺序排序，这是循环进行的，比如有50个map输出，而合并因子(merge factor)是10(10位默认值，由io.sort.factor属性设置)，合并将进行五次，每次将10个文件合并成一个文件，因此最后有5个中间文件。

　　在最后阶段，即reduce阶段，直接把数据输入reduce函数，从而省略了一次磁盘往返形成，并没有将这5个文件合并成一个已排序的文件作为最后一趟，最后的合并既可能来自内存和也可能来自磁盘片段。

转载于:https://www.cnblogs.com/sy270321/p/4396494.html

weixin_33963189

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
hadoop1——map到reduce中间的shuffle过程

---恢复内容开始---shuffle和排序过程图如下：MapReduce确保每个reduce的输入都按键排序，系统执行排序的过程——将map输出作为输入传给reduce——成为shuffle，理解shuffle的工作原理，有助于MapReduce程序的优化，因为shuffle属于不断被优化和改进的代码库的一部分，shuffle是MapReduce的心脏，是奇迹发生的地方...
复制链接

扫一扫