「Spark 从精通到重新入门(一)」Spark 中不可不知的动态优化

最新推荐文章于 2024-05-13 21:43:10 发布

VIP文章尔达 Erda

最新推荐文章于 2024-05-13 21:43:10 发布

阅读量7.4k

点赞数

文章标签： elasticsearch 单元测试测试工具云原生

本文链接：https://blog.csdn.net/m0_59358648/article/details/121511081

版权

前言

Apache Spark 自 2010 年面世，到现在已经发展为大数据批计算的首选引擎。而在 2020 年 6 月份发布的Spark 3.0 版本也是 Spark 有史以来最大的 Release，其中将近一半的 issue 都属于 SparkSQL。这也迎合我们现在的主要场景（90% 是 SQL），同时也是优化痛点和主要功能点。我们 Erda 的 FDP 平台（Fast Data Platform）也从 Spark 2.4 升级到 Spark 3.0 并做了一系列的相关优化，本文将主要结合 Spark 3.0 版本进行探讨研究。

为什么 Spark 3.0 能够“神功大成”，在速度和性能方面有质的突破？本文就为大家介绍 Spark 3.0 中 SQL Engine 的“天榜第一”——自适应查询框架 AQE（Adaptive Query Execution）。

AQE，你是谁？

简单来说，自适应查询就是在运行时不断优化执行逻辑。

Spark 3.0 版本之前，Spark 执行 SQL 是先确定 shuffle 分区数或者选择 Join 策略后，再按规划执行，过程中不够灵活；现在，在执行完部分的查询后，Spark 利用收集到结果的统计信息再对查询规划重新进行优化。这个优化的过程不是一次性的，而是随着查询会不断进行优化, 让整个查询优化变得更加灵活和自适应。这一改动让我们告别之前无休止的被动优化。

AQE，你会啥？

了解了 AQE 是什么之后，我们再看看自适应查询 AQE 的“三板斧”：

动态合并 Shuffle 分区
动态调整 Join 策略
动态优化数据倾斜

动态合并 shuffle 分区

如果你之前使用过 Spark，也许某些“调优宝典”会告诉你调整 shuffle 的 partitions 数量，默认是 200。但是在不同 shuffle 中，数据的大小和分布基本都是不同的，那么简单地用一个配置，让所有的 shuffle 来遵循，显然不是最优的。

分区过小会导致每个 partition 处理的数据较大，可能需要将数据溢写到磁盘，从而减慢查询速度；分区过大又会带来 GC 压力和低效 I/O 等问题。因此，动态合并 shuffle 分区是非常必要的。AQE 可以在运行期间

最低0.47元/天解锁文章

尔达 Erda

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
「Spark 从精通到重新入门(一)」Spark 中不可不知的动态优化

前言Apache Spark 自 2010 年面世，到现在已经发展为大数据批计算的首选引擎。而在 2020 年 6 月份发布的Spark 3.0 版本也是 Spark 有史以来最大的 Release，其中将近一半的 issue 都属于 SparkSQL。这也迎合我们现在的主要场景（90% 是 SQL），同时也是优化痛点和主要功能点。我们 Erda 的 FDP 平台（Fast Data Platform）也从 Spark 2.4 升级到 Spark 3.0 并做了一系列的相关优化，本文将主要结合 Spar.
复制链接

扫一扫