Spark性能调优

大数据侠客

已于 2024-03-08 10:59:57 修改

阅读量101

点赞数

分类专栏： spark相关问题汇总及解决文章标签： spark 性能调优

于 2024-03-08 10:27:01 首次发布

本文链接：https://blog.csdn.net/weixin_41367158/article/details/136555069

版权

spark相关问题汇总及解决专栏收录该内容

7 篇文章 1 订阅 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍了Spark性能调优的基础篇，重点讲述了开发调优的原则，包括避免创建重复的RDD、复用同一个RDD、对多次使用的RDD进行持久化、尽量避免shuffle类算子、使用map-side预聚合、使用高性能算子、广播大变量、使用Kryo优化序列化性能、优化数据结构和数据本地化。通过遵循这些原则，可以显著提高Spark作业的执行效率。

摘要由CSDN通过智能技术生成

1、前言

在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作，应用范围与前景非常广泛。在美团•大众点评，已经有很多同学在各种项目中尝试使用Spark。大多数同学（包括笔者在内），最初开始尝试使用Spark的原因很简单，主要就是为了让大数据计算作业的执行速度更快、性能更高。
然而，通过Spark开发出高性能的大数据计算作业，并不是那么简单的。如果没有对Spark作业进行合理的调优，Spark作业的执行速度可能会很慢，这样就完全体现不出Spark作为一种快速大数据计算引擎的优势来。因此，想要用好Spark，就必须对其进行合理的性能优化。
Spark的性能调优实际上是由很多部分组成的，不是调节几个参数就可以立竿见影提升作业性能的。我们需要根据不同的业务场景以及数据情况，对Spark作业进行综合性的分析，然后进行多个方面的调节和优化，才能获得最佳性能。
笔者根据之前的Spark作业开发经验以及实践积累，总结出了一套Spark作业的性能优化方案。整套方案主要分为开发调优、资源调优、数据倾斜调优、shuffle调优几个部分。开发调优和资源调优是所有Spark作业都需要注意和遵循的一些基本原则，是高性能Spark作业的基础；数据倾斜调优，主要讲解了一套完整的用来解决