spark 性能调优之shuffle

最新推荐文章于 2024-07-27 11:09:00 发布

字母的艺术

最新推荐文章于 2024-07-27 11:09:00 发布

阅读量188

点赞数

分类专栏： spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/py_tamir/article/details/91819303

版权

spark 专栏收录该内容

17 篇文章 0 订阅

订阅专栏

目录

1、shuffle block file 合并
2、提高缓存数值
3、延迟失败次数，提高失败重试次数
4、提高reduce 端内存占比

1、shuffle block file 合并

new SparkConf().set("spark.shuffle.consolidateFiles", "true")

spark.shuffle.consolidateFiles：是否开启shuffle block file的合并，默认为false

2、提高缓存数值

spark.reducer.maxSizeInFlight：reduce task的拉取缓存，默认48m

spark.shuffle.file.buffer：map task的写磁盘缓存，默认32k

3、延迟失败次数，提高失败重试次数（避免gc时间过长）

spark.shuffle.io.maxRetries：拉取失败的最大重试次数，默认3次

spark.shuffle.io.retryWait：拉取失败的重试间隔，默认5s

4、提高reduce 端内存占比

spark.shuffle.memoryFraction：用于reduce端聚合的内存比例，默认0.2，超过比例就会溢出到磁盘上。

字母的艺术

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。