Spark shuffle 过程详解

Shuffle 过程分为map 端的write 和 reducer 端的read 两阶段

Shuffle write 端发展史从 hashShuffleManager(默认spark1.2之前) 和 到 sortShuffleManger

HashShuffleManager 分为普通shuffle 和 consolidate机制shuffle

1.普通shuffle

普通shuffle  write Map task 会把处理的数据根据key hash 取模,将相同的key写入同一个磁盘文件,每个task 会根据reduce task 的数量输出相同的数量文件,一个文件只属于reduce stage 端的一个task,数据在写磁盘之前会先写入buffer内存,不同的key写入不同的buffer,内存满了才会写磁盘文件。在每个shuffle 过程需产生M*R 个本地文件。

Shuffle Read Reduce task 会把属于自己的上一个stage  task 所生成的文件,通过网络从各个节点拉取数据到自己的节点,每个task 都会有一个缓存,每次只能拉取与缓存大小的数据,数据拉入缓存然后在内存中进行聚合,一边拉一边聚合。

2.consolidate 机制 shuffle(spark.shuffle.consolidateFiles=true,默认为fa

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值