spark的四种shuffle机制

1.未经优化的HashShuffleManager 下一个stage有n个task,则该stage的有m个task都生成n文件,在落盘时会生成nm个文件,大量小文件性能效率差

2.优化的HashShuffleManager 一个Excutor里面的同stage的task共用一个buffler内存,在shuffle过程中,task就不用为下游stage的每个task创建一个磁盘文件了,而是允许使用不同的task共用同一批磁盘文件,在一定程度上可以将多个task的磁盘文件合并,减少磁盘文件数量,数量为 excutor的核数乘以下一级stage的task数量
3.SortShuffleManager 每个Task数据会先写入到一个内存数据结构中,此时根据shuffle的算子的不同,采用不同的数据结构,比如reduceByKey采用的时map
的结构,join这种直接放在Array数据结构中,每一条数据直接进入内存数据结构中,会判断是否到达刷写阈值,到达后会将内存中的数据排序,排序后分批将数据写到磁盘中,批次大小默认为10000,多次溢写操作产生多个文件,最后会将这些这些临时文件merge只剩下一个文件,该文件保存着下个stage的所有task的数据,所以还会单独写一份索引文件,表示了每个task的起始数据位置
4.bypass 与未优化的hashShuffleManager一样,只是在最后会合并成一个磁盘文件,合并过程与sortShuffleManager一样,但是不排序
触发条件:
1.shuffle map task 数量小于 spark.shuffle.sort.bypassMergeThreshold参数的值
2、不是聚合类的shuffle算子(比如reduceByKey)。因为不像第3种机制那样会对聚合类算子以map的数据结构存储,在写的过程中会先进行局部聚合。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值