Spark 性能调优之 Shuffle Partition Number

在工作中,我的团队遇到了一个问题,某些 Spark Jobs 的运行时间远远超过了 SLA(Service-Level Agreement,即与用户约定好的服务协议)。因此,我们需要找出这些 Spark Jobs 速度慢的原因并进行修复。

具体修复流程如下:

  1. 查看历史数据,判断这是长期问题还是短期偶尔的性能问题。结论是长期存在的问题。
  2. 访问 Spark Job 主页,观察到底是哪一部分成为了瓶颈(Bottleneck)。结论是 Evaluation 部分耗时最长,其他部分如读取数据、Shuffle 数据和写入数据都还算正常。
  3. 深入 Evaluation Stage,查看所有的 Task,观察具体问题。结论是 Shuffle Read Data Size 达到 2.2GB,远大于预期的 150MB - 200MB。过多的数据无法全部存储在 executor 的内存里,因此部分数据需要写入硬盘。于是我们看到 Memory Spill 和 Disk Spill 都有很大的值。这两个值表示相同的数据,但 Memory Spill 通常比 Disk Spill 大很多,因为数据在内存中是反序列化的,需要更大的存储空间。
  4. 解决办法是将每个 Task 拆分成更多的小 Task,使 executor 可以将数据全部存储在内存中,从而极大地加快计算速度。最后我将 Shuffle Partition Number 提高了12倍(12 ~= 2.2GB / (150MB 到 200MB))。这样每个 Task 处理的数据量是原来的十二分之一。

通过这种方式,我们成功地优化了 Spark Jobs 的性能,确保其运行时间在 SLA 之内。

  • 8
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值