MapReduce中Shuffle阶段细分和reduceTask为0时

最新推荐文章于 2022-12-17 19:29:20 发布

技术无产者

最新推荐文章于 2022-12-17 19:29:20 发布

阅读量433

点赞数 1

分类专栏：大数据 # HADOOP 文章标签： mapreduce 大数据

本文链接：https://blog.csdn.net/qq_39552268/article/details/110739753

版权

HADOOP 同时被 2 个专栏收录

9 篇文章 0 订阅

订阅专栏

大数据

4 篇文章 0 订阅

订阅专栏

在Mapreduce中，Shuffle过程是Mapreduce的核心，它分布在Mapreduce的map阶段和reduce阶段，共可分为6个详细的阶段：

1).Collect阶段：将MapTask的结果输出到默认大小为100M的MapOutputBuffer内部环形内存缓冲区，保存
的是key/value，Partition分区，map的每条结果通过context.write进行collect数据收集,即进入到了Collect阶段。在collect中，会先对其进行分区处理，默认使用HashPartitioner

2).Spill阶段：当内存中的数据量达到一定的阀值的时候，就会将数据写入本地磁盘，在将数据写入磁盘
之前需要对数据进行一次排序的操作，先是对partition分区号进行排序，再对key排序，如果配置了
combiner，还会将有相同分区号和key的数据进行排序，如果有压缩设置，则还会对数据进行压缩操作。

3).Combiner阶段：等MapTask任务的数据处理完成之后，会对所有map产生的数据结果进行一次合并操作，
以确保一个MapTask最终只产生一个中间数据文件。

4).Copy阶段：当整个MapReduce作业的MapTask所完成的任务数据占到MapTask总数的5%时，JobTracker就会
调用ReduceTask启动，此时ReduceTask就会默认的启动5个线程到已经完成MapTask的节点上复制一份属于自
己的数据，这些数据默认会保存在内存的缓冲区中，当内存的缓冲区达到一定的阀值的时候，就会将数据写
到磁盘之上。

5).Merge阶段：在ReduceTask远程复制数据的同时，会在后台开启两个线程对内存中和本地中的数据文件进行
合并操作。

6).Sort阶段：在对数据进行合并的同时，会进行排序操作，由于MapTask阶段已经对数据进行了局部的排序，
ReduceTask只需做一次归并排序就可以保证Copy的数据的整体有效性

所以如果设置reduceTask任务数为0，map端不会执行combiner，sort，merge操作，会直接输出无序结果（读一行，输一行）,输出的文件数量，

与map task的数量匹配（一个Input split对应一个map task），设reduceTask为0，则分区数为0，这时候就不会进入Shuffle阶段，也就不会进入Collect阶段，也就不会sort

源码所示，reduceTask为0走第一条不进入Shuffle阶段，>0时才会进入Shuffle阶段

技术无产者

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
MapReduce中Shuffle阶段细分和reduceTask为0时

在Mapreduce中，Shuffle过程是Mapreduce的核心，它分布在Mapreduce的map阶段和reduce阶段，共可分为6个详细的阶段：1).Collect阶段：将MapTask的结果输出到默认大小为100M的MapOutputBuffer内部环形内存缓冲区，保存的是key/value，Partition分区，map的每条结果通过context.write进行collect数据收集,即进入到了Collect阶段。在collect中，会先对其进行分区处理，默认使用HashPartitio
复制链接

扫一扫