Shuffle机制
Map端的shuffle
1)假设map阶段有2个maptask,会产生2个map方法,map1方法和map2方法
2)map1方法将数据以<k,v>的形式写入到环形缓冲区中,环形缓冲区左侧存储的是元数据(包括k、v的起始位置,分区号,索引),右侧存储的时候实际的k,v数据,环形缓冲区默认大小是100M,数据写入到整个环形缓冲区的80%时,会反向将数据溢写到磁盘上
3)在溢写之前会对数据进行分区,并对每个分区内的数据进行排序
4)将数据按照分区溢写到磁盘上,可能会溢写多次,形成多个小文件
5)在溢写之前,可以进行combiner合并,按照分区把相同key对应的value进行合并(可选流程)
6)将所有溢写出来的小文件按照分区merge归并排序,形成一个大文件
7)combiner合并(可选流程)
8)将数据按照分区进行压缩
9)最后将数据输出到磁盘上对应的分区中,等待reduce来读取分区中的数据
10)map2方法的处理过程和map1方法一样
Reduce端的shuffle
10)map阶段输出的数据放在磁盘上,等待reduce来读取
11 所有MapTask任务完成后,集群中的MrappMaster启动相应数量的ReduceTask,一般reducetask数量由分区个数来决定
12)ReduceTask去磁盘中按照分区将数据拷贝到内存中,这里ReduceTask1负责拷贝分区1中的数据,ReduceTask2负责拷贝分区2中的数据
13)当内存不够时会将数据溢写到磁盘上,
14)将磁盘和内存中的所有数据进行归并排序,形成一个大文件
15)按照相同的key进行分组排序
16)将数据交给reduce方法处理