Spark总结整理(八):Spark Core 性能优化思路、步骤总结

本文总结了Spark性能优化的关键步骤,从开发调优、资源管理、数据倾斜处理、Shuffle优化到内存模型理解,提供了全面的性能提升策略。通过遵循这些建议,开发者可以有效避免Spark任务中的常见性能瓶颈。
摘要由CSDN通过智能技术生成

总结前面性能优化相关文章,列出Spark开发性能优化的一般步骤

前述文章包括:
1. Spark总结整理(三):Spark Core 性能优化之开发调优
2. Spark总结整理(四):Spark Core 性能优化之资源调优
3. Spark总结整理(五):Spark Core 性能优化之数据倾斜调优
4. Spark总结整理(六):Spark Core 性能优化之Shuffle调优
5. Spark总结整理(七):Spark Core 性能优化之内存模型

思路如下:

  1. 开发之前和开发过程中,参考 Spark Core 性能优化之开发调优 一文中的 10大原则,分析业务逻辑,提前定位可能的性能瓶颈
  2. 尽可能将资源相关的配置放在提交命令中,不要硬编码在代码中,根据具体业务和使用的spark版本, 参考 Spark Core 性能优化之资源调优 一文,确定任务所需资源
  3. 观察线上任务,如果 出现OOM 或者 SparkUI 上观察到发生数据倾斜,参考 Spark Core 性能优化之数据倾斜调优 一文进行方案调整
  4. 一般来说,通过前面3步,已可解决大部分问题,如需进一步针对 shuffle 进行优化,可参考 Spark Core 性能优化之Shuffle调优 一文,进行特别配置

第3、4点属于事后优化,即线上任务出现问题后进行定位、解决,Spark Core 性能优化之内存模型 一文加深 对 Spark 内存的理解,以便更加从容的解决 spark 性能问题

个人觉得,相比于Flink任务,Spark需要开发任务对Spark内存等方面有更为深入的理解,方能应付线上出现的一系列问题,而Flink这方面则简便许多,尤其是在背压方面,Flink帮运维省去了大部分精力

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值