hadoop mapreduce Shuffle 过程详解

最新推荐文章于 2021-06-02 12:01:20 发布

op1sreal

最新推荐文章于 2021-06-02 12:01:20 发布

阅读量406

点赞数

分类专栏： hadoop 文章标签： hadoop

本文链接：https://blog.csdn.net/iCloser/article/details/108798362

版权

MapReduce框架中的shuffle过程至关重要，涉及数据分区、排序、分组和合并等步骤。Map阶段数据通过collect阶段进入环形缓冲区，溢出时触发排序和可能的combiner操作，然后写入磁盘。Merge阶段合并临时文件，ReduceTask通过Fetcher线程复制数据并进行内存到磁盘的合并。最后，数据在Copy和Merge过程中进行全局排序，优化性能的关键在于调整缓冲区大小。

摘要由CSDN通过智能技术生成

map 阶段处理的数据如何传递给 reduce 阶段，是 MapReduce 框架中最关键的一个流程，这个流程就叫 shuffle
shuffle: 洗牌、发牌 ——(核心机制:数据分区，排序，分组，规约，合并等过程)

shuffle 是 Mapreduce 的核心，它分布在 Mapreduce 的 map 阶段和 reduce 阶段。一般把从 Map 产生输出开始到 Reduce 取得数据作为输入之前的过程称作 shuffle。

Collect阶段:将MapTask的结果输出到默认大小为100M的环形缓冲区，保存的是 key/value，Partition 分区信息等。
Spill阶段:当内存中的数据量达到一定的阀值的时候，就会将数据写入本地磁盘，在将数据写入磁盘之前需要对数据进行一次排序的操作，如果配置了 combiner，还会将有相同分区号和 key 的数据进行排序。
Merge阶段:把所有溢出的临时文件进行一次合并操作，以确保一个MapTask最终只产生一个中间数据文件。
Copy阶段:ReduceTask启动Fetcher线程到已经完成MapTask的节点上复制一份属于自己的数据，这些数据默认会保存在内存的缓冲区中，当内存的缓冲区达到一定的阀值的时候，就会将数据写到磁盘之上。
Merge阶段:在ReduceTask远程复制数据的同时，会在后台开启两个线程对内存到本地的数据文件进行合并操作。
Sort阶段:在对数据进行合并的同时，会进行排序操作，由于MapTask阶段已经对数据进行了局部的排序，ReduceTask 只需保证 Copy 的数据的最终整体有效性即可。 Shuffle 中的缓冲区大小会影响到 mapreduce 程序的执行效率，原则上说，缓冲区越大，磁盘io的次数越少，执行速度就越快。缓冲区的大小可通过参数调整,参数:mapreduce.task.io.sort.mb 默认为100M