Shuffle工作流程

Shuffle机制

Map端的shuffle

1)假设map阶段有2个maptask,会产生2个map方法,map1方法和map2方法
2)map1方法将数据以<k,v>的形式写入到环形缓冲区中,环形缓冲区左侧存储的是元数据(包括k、v的起始位置,分区号,索引),右侧存储的时候实际的k,v数据,环形缓冲区默认大小是100M,数据写入到整个环形缓冲区的80%时,会反向将数据溢写到磁盘上
3)在溢写之前会对数据进行分区,并对每个分区内的数据进行排序
4)将数据按照分区溢写到磁盘上,可能会溢写多次,形成多个小文件
5)在溢写之前,可以进行combiner合并,按照分区把相同key对应的value进行合并(可选流程)
6)将所有溢写出来的小文件按照分区merge归并排序,形成一个大文件
7)combiner合并(可选流程)
8)将数据按照分区进行压缩
9)最后将数据输出到磁盘上对应的分区中,等待reduce来读取分区中的数据
10)map2方法的处理过程和map1方法一样

Reduce端的shuffle

10)map阶段输出的数据放在磁盘上,等待reduce来读取
11 所有MapTask任务完成后,集群中的MrappMaster启动相应数量的ReduceTask,一般reducetask数量由分区个数来决定
12)ReduceTask去磁盘中按照分区将数据拷贝到内存中,这里ReduceTask1负责拷贝分区1中的数据,ReduceTask2负责拷贝分区2中的数据
13)当内存不够时会将数据溢写到磁盘上,
14)将磁盘和内存中的所有数据进行归并排序,形成一个大文件
15)按照相同的key进行分组排序
16)将数据交给reduce方法处理
 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值