spark从入门到放弃二十七:Spark 性能优化(10)shuffle 性能优化

最新推荐文章于 2022-03-15 21:08:50 发布

WQ同学

最新推荐文章于 2022-03-15 21:08:50 发布

阅读量2.9k

点赞数

分类专栏：大数据 spark 文章标签： spark 性能优化合并性能磁盘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u012957549/article/details/79706325

版权

spark 同时被 2 个专栏收录

122 篇文章 15 订阅

订阅专栏

43 篇文章 1 订阅

订阅专栏

文章地址：http://www.haha174.top/article/details/251220

1 consolidation

new SparkConf().set(“spark.shuffle.consolidateFiles”,”true”)
是否开启shuffle block file 的合并默认false

这里写图片描述
没有开启consolidation 机制的时候，shuffle write 的性能是比较低下的因为在shuffle map 的时候创建的磁盘文件太多了，导致shuffle write 要耗费大量的性能在磁盘文件的创建，以及在磁盘io 上，对于shuffle read 也是一样，每个shuffle task 可能都需要通过磁盘io 读取多个文件的数据。都只shuffle read 性能可能也受到影响，
但是其实最主要的还是shuffle write 因为要写的磁盘文件的数量实在是太多了。
比如每个节点有100个shuffle map task 然后呢总共有有1000个 result task .所以每个节点上的磁盘文件的数量就是100*1000

这里写图片描述
开启了consolidation机制之后shuffle map 写磁盘的数量大大减少，每个shuffle map task 10个cpu 总共1000个result task 那么单个节点的文件总数 10*1000
此外 result task 拉去的磁盘io 也变少了

2 reduce task 缓存

spark.reducer.maxSizeInFlight 默认48M
每次只能拉取指定缓存大小的数据量，拉取完聚合处理，然后再次拉取，所以如果你的内存够大的化可以适当加大。

3.map 端的bucket 缓存

saprk.shuffle.file.buffer map task 写磁盘缓存默认32 k
map 端的bucket 缓存也可以适当增大这样的化写入磁盘的次数就会减少。

4.拉取失败最大重试次数

spark.shuffle.io.maxRetries 默认3次

5.拉取失败重试间隔

spark.shuffle.io.retryWait 默认5秒

6.用于reduce 端聚合的内存比例

spark.shuffle.memoryFraction
默认0.2 超过比例就会溢出到磁盘上

欢迎关注，更多福利

这里写图片描述

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。