MapReduce之shuffle过程

最新推荐文章于 2021-10-08 21:39:36 发布

天佑凡人

最新推荐文章于 2021-10-08 21:39:36 发布

阅读量408

点赞数

分类专栏： hadoop学习笔记文章标签： hadoop mapreduce shuffle

本文链接：https://blog.csdn.net/wanghaiyuan1993/article/details/45333703

版权

hadoop学习笔记专栏收录该内容

10 篇文章 0 订阅

订阅专栏

Shuffle描述着数据从map task输出到reduce task输入的这段过程。官网图片表示Shuffle过程横跨map与reduce两端，如下图：

一 map端shuffle

map端流程如下图：

1. map的输入来自HDFS的block(块)。

2.map的输出是key/value对，MapReduce提供Partitioner接口，它的作用就是根据key或value及reduce的数量来决定当前的这对输出数据最终应该交由哪个reduce task处理。默认对key hash后再以reduce task数量取模。默认的取模方式只是为了平均reduce的处理能力(但容易导致数据倾斜问题)。key/value对以及Partition的结果都会被写入缓冲区。当然写入之前，key与value值都会被序列化成字节数组。

3. 默认情况下，内存缓冲区的上限是100M，当内存缓冲区达到80M(即80%)时，溢写线程启动，锁定这80MB的内存，执行溢写过程。Map task的输出结果还可以往剩下的20MB内存中写，互不影响。当溢写线程启动后，需要对这80MB空间内的key做排序(Sort)。如果你设置有Combiner，也是会启用的，然后在磁盘中生成了众多的溢写文件。

4.每次溢写会在磁盘上生成一个溢写文件，如果map的输出结果真的很大，有多次这样的溢写发生，磁盘上相应的就会有多个溢写文件存在。当map task真正完成时，内存缓冲区中的数据也全部溢写到磁盘中形成一个溢写文件。最终磁盘中会至少有一个这样的溢写文件存在(如果map的输出结果很少，当map执行完成时，只会产生一个溢写文件)，因为最终的文件只有一个，所以需要将这些溢写文件归并到一起，这个过程就叫做Merge。

二 reduce端shuffle

reduce端流程如下图：

1.拉取数据过程，reduce端的输入来自map的输出。

2. Merge()合并阶段。merge有三种形式：1)内存到内存 2)内存到磁盘 3)磁盘到磁盘。默认情况下第一种形式不启用。当内存中的数据量到达一定阈值，就启动内存到磁盘的merge，缓存占用到达一定阈值后会将数据写到磁盘中，同样会进行partition、combine、排序等过程。。第二种merge方式一直在运行，直到没有map端的数据时才结束，然后启动第三种磁盘到磁盘的merge方式生成最终的那个文件。

3.Reducer的输入文件。不断地merge后，最后会生成一个“最终文件”。文件会存放在磁盘中(默认)，也可以存放在内存中。当Reducer的输入文件已定，整个Shuffle才最终结束。然后就是Reducer执行，把结果放到HDFS上。

天佑凡人

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
MapReduce之shuffle过程

Shuffle描述着数据从map task输出到reduce task输入的这段过程。官网图片表示Shuffle过程横跨map与reduce两端，如下图：一 map端shuffle map端流程如下图： 1. map的输入来自HDFS的block(块)。 2.map的输出是
复制链接

扫一扫