SortShuffleManager与HashShuffleManager俩点不同:
1. sortShuffleManager会对每个reduce task要处理的数据进行排序(默认的)
2.sortShuffleManager会避免像HashShuffleManager默认就创建多份磁盘文件,一个task只能写入一份文件
总共有三种Manager选择
1. hashShuffleManager
2. sortShuffleManger
3. tungsten-sortShuffleManager
这个该怎么选择
1. 首先看需不需要默认就让spark给你进行排序?如果不需要排序的话,那么就使用HashShuffleManager
2. 什么时候需要用sort shuffle manager?如果你需要你的那些数据按key排序了,那么就选择这种,需要注意的是,reduce task的数量应该是超过200的,这样sort、merge(多个文件合并成一个)的机制,才能生效,但是这里要注意,你一定要考量有没有必要在shuffle过程中就做排序,毕竟是对性能有影响的
3.如果你希望你的每个task输出的文件最终是会合并成一份的,认为可以减少性能开销,可以去调节bypassMergeThreshold这个阈值,比如你的reduce task数量是500,默认阀值是200,所以默认还是会进行sort和merge的,此时可以将阈值调节成550,不会进行sort,按照hash的做法,每个reduce task创建一份输出文件,最后合并成一份文件(通常不会这样用)
具体设置
1. spark.shuffle.manager:hash、sort/tungsten-sort
new SparkConf().set(" spark.shuffle.manager:hash","hash")
new SparkConf().set("spark.shuffle.sort.bypassMergeThreshold","500")