Shuffle工作流程

最新推荐文章于 2021-11-18 15:02:15 发布

帅成一匹马

最新推荐文章于 2021-11-18 15:02:15 发布

阅读量2k

点赞数 1

分类专栏：大数据

本文链接：https://blog.csdn.net/shenshengsu1990/article/details/108268988

版权

大数据专栏收录该内容

41 篇文章 1 订阅

订阅专栏

Shuffle机制

Map端的shuffle

1）假设map阶段有2个maptask，会产生2个map方法，map1方法和map2方法
2）map1方法将数据以<k,v>的形式写入到环形缓冲区中，环形缓冲区左侧存储的是元数据（包括k、v的起始位置，分区号，索引），右侧存储的时候实际的k，v数据，环形缓冲区默认大小是100M，数据写入到整个环形缓冲区的80%时，会反向将数据溢写到磁盘上
3）在溢写之前会对数据进行分区，并对每个分区内的数据进行排序
4）将数据按照分区溢写到磁盘上，可能会溢写多次，形成多个小文件
5）在溢写之前，可以进行combiner合并，按照分区把相同key对应的value进行合并（可选流程）
6）将所有溢写出来的小文件按照分区merge归并排序，形成一个大文件
7）combiner合并（可选流程）
8）将数据按照分区进行压缩
9）最后将数据输出到磁盘上对应的分区中，等待reduce来读取分区中的数据
10）map2方法的处理过程和map1方法一样

Reduce端的shuffle

10）map阶段输出的数据放在磁盘上，等待reduce来读取
11 所有MapTask任务完成后，集群中的MrappMaster启动相应数量的ReduceTask，一般reducetask数量由分区个数来决定
12）ReduceTask去磁盘中按照分区将数据拷贝到内存中，这里ReduceTask1负责拷贝分区1中的数据，ReduceTask2负责拷贝分区2中的数据
13）当内存不够时会将数据溢写到磁盘上，
14）将磁盘和内存中的所有数据进行归并排序，形成一个大文件
15）按照相同的key进行分组排序
16）将数据交给reduce方法处理