Shuffle描述着数据从map task输出到reduce task输入的这段过程。官网图片表示Shuffle过程横跨map与reduce两端,如下图:
一 map端shuffle
map端流程如下图:
1. map的输入来自HDFS的block(块)。
2.map的输出是key/value对,MapReduce提供Partitioner接口,它的作用就是根据key或value及reduce的数量来决定当前的这对输出数据最终应该交由哪个reduce task处理。默认对key hash后再以reduce task数量取模。默认的取模方式只是为了平均reduce的处理能力(但容易导致数据倾斜问题)。key/value对以及Partition的结果都会被写入缓冲区。当然写入之前,key与value值都会被序列化成字节数组。
3. 默认情况下,内存缓冲区的上限是100M,当内存缓冲区达到80M(即80%)时,溢写线程启动,锁定这80MB的内存,执行溢写过程。Map task的输出结果还可以往剩下的20MB内存中写,互不影响。当溢写线程启动后,需要对这80MB空间内的key做排序(Sort)。如果你设置有Combiner,也是会启用的,然后在磁盘中生成了众多的溢写文件。
4.每次溢写会在磁盘上生成一个溢写文件,如果map的输出结果真的很大,有多次这样的溢写发生,磁盘上相应的就会有多个溢写文件存在。当map task真正完成时,内存缓冲区中的数据也全部溢写到磁盘中形成一个溢写文件。最终磁盘中会至少有一个这样的溢写文件存在(如果map的输出结果很少,当map执行完成时,只会产生一个溢写文件),因为最终的文件只有一个,所以需要将这些溢写文件归并到一起,这个过程就叫做Merge。
二 reduce端shuffle
reduce端流程如下图:
1.拉取数据过程,reduce端的输入来自map的输出。
2. Merge()合并阶段。merge有三种形式:1)内存到内存 2)内存到磁盘 3)磁盘到磁盘。默认情况下第一种形式不启用。当内存中的数据量到达一定阈值,就启动内存到磁盘的merge,缓存占用到达一定阈值后会将数据写到磁盘中,同样会进行partition、combine、排序等过程。。第二种merge方式一直在运行,直到没有map端的数据时才结束,然后启动第三种磁盘到磁盘的merge方式生成最终的那个文件。
3.Reducer的输入文件。不断地merge后,最后会生成一个“最终文件”。文件会存放在磁盘中(默认),也可以存放在内存中。当Reducer的输入文件已定,整个Shuffle才最终结束。然后就是Reducer执行,把结果放到HDFS上。