Spark 性能调优之 Shuffle Partition Number

暴躁老哥在线刷题

于 2024-07-27 11:09:00 发布

阅读量210

点赞数 8

文章标签： spark 大数据分布式

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_32424059/article/details/140732141

版权

在工作中，我的团队遇到了一个问题，某些 Spark Jobs 的运行时间远远超过了 SLA（Service-Level Agreement，即与用户约定好的服务协议）。因此，我们需要找出这些 Spark Jobs 速度慢的原因并进行修复。

具体修复流程如下：

查看历史数据，判断这是长期问题还是短期偶尔的性能问题。结论是长期存在的问题。
访问 Spark Job 主页，观察到底是哪一部分成为了瓶颈（Bottleneck）。结论是 Evaluation 部分耗时最长，其他部分如读取数据、Shuffle 数据和写入数据都还算正常。
深入 Evaluation Stage，查看所有的 Task，观察具体问题。结论是 Shuffle Read Data Size 达到 2.2GB，远大于预期的 150MB - 200MB。过多的数据无法全部存储在 executor 的内存里，因此部分数据需要写入硬盘。于是我们看到 Memory Spill 和 Disk Spill 都有很大的值。这两个值表示相同的数据，但 Memory Spill 通常比 Disk Spill 大很多，因为数据在内存中是反序列化的，需要更大的存储空间。
解决办法是将每个 Task 拆分成更多的小 Task，使 executor 可以将数据全部存储在内存中，从而极大地加快计算速度。最后我将 Shuffle Partition Number 提高了12倍（12 ~= 2.2GB / (150MB 到 200MB)）。这样每个 Task 处理的数据量是原来的十二分之一。

通过这种方式，我们成功地优化了 Spark Jobs 的性能，确保其运行时间在 SLA 之内。

暴躁老哥在线刷题

关注

8
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Spark 性能调优之 Shuffle Partition Number

在工作中，我的团队遇到了一个问题，某些 Spark Jobs 的运行时间远远超过了 SLA（Service-Level Agreement，即与用户约定好的服务协议）。因此，我们需要找出这些 Spark Jobs 速度慢的原因并进行修复。通过这种方式，我们成功地优化了 Spark Jobs 的性能，确保其运行时间在 SLA 之内。
复制链接

扫一扫

暴躁老哥在线刷题 CSDN认证博客专家 CSDN认证企业博客

码龄9年

891: 原创

8916: 周排名

1061: 总排名

115万+: 访问

: 等级

1万+: 积分

1273: 粉丝

1022: 获赞

204: 评论

2852: 收藏

私信

关注

分类专栏

SystemDesign 4篇
OOD 系列 1篇
考证经验 4篇
数据结构 1篇
numpy 4篇
Codewars 4篇
Leetcode 805篇
其他 11篇

最新评论

20小时速通AWS Certified Cloud Practitioner (CLF-C01) 证书经验分享
暴躁老哥在线刷题: 绿色app搜索小程序
20小时速通AWS Certified Cloud Practitioner (CLF-C01) 证书经验分享
gao不好，也要gao: small程序微考大师请问在哪里能找到啊？
LeetCode-Python-1091. 二进制矩阵中的最短路径
CSDN-Ada助手: 实现一个最小生成树算法，支持 Prim 和 Kruskal 算法。
LeetCode-Python-1146. 快照数组
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)使用更多的站内链接；(2)提升标题与正文的相关性；(3)增加除了各种控件外，文章正文的字数。
LeetCode-Python-424. 替换后的最长重复字符（滑动窗口）
CSDN-Ada助手: 不知道算法技能树是否可以帮到你：https://edu.csdn.net/skill/algorithm?utm_source=AI_act_algorithm

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。