spark调优之HashShuffleManager与ShuffleManager调优

SortShuffleManager与HashShuffleManager俩点不同:

1. sortShuffleManager会对每个reduce task要处理的数据进行排序(默认的)

2.sortShuffleManager会避免像HashShuffleManager默认就创建多份磁盘文件,一个task只能写入一份文件

 

总共有三种Manager选择

1. hashShuffleManager

2. sortShuffleManger

3. tungsten-sortShuffleManager

这个该怎么选择

 

1. 首先看需不需要默认就让spark给你进行排序?如果不需要排序的话,那么就使用HashShuffleManager

 

2. 什么时候需要用sort shuffle manager?如果你需要你的那些数据按key排序了,那么就选择这种,需要注意的是,reduce task的数量应该是超过200的,这样sort、merge(多个文件合并成一个)的机制,才能生效,但是这里要注意,你一定要考量有没有必要在shuffle过程中就做排序,毕竟是对性能有影响的

3.如果你希望你的每个task输出的文件最终是会合并成一份的,认为可以减少性能开销,可以去调节bypassMergeThreshold这个阈值,比如你的reduce task数量是500,默认阀值是200,所以默认还是会进行sort和merge的,此时可以将阈值调节成550,不会进行sort,按照hash的做法,每个reduce task创建一份输出文件,最后合并成一份文件(通常不会这样用)

 

具体设置

1. spark.shuffle.manager:hash、sort/tungsten-sort

new SparkConf().set(" spark.shuffle.manager:hash","hash")

 

new SparkConf().set("spark.shuffle.sort.bypassMergeThreshold","500")

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值