spark3.x新特性

最新推荐文章于 2024-07-24 21:35:32 发布

小蜜蜂爱编程

最新推荐文章于 2024-07-24 21:35:32 发布

阅读量613

点赞数 5

文章标签： spark 大数据

本文链接：https://blog.csdn.net/qq_42936727/article/details/137278815

版权

Adaptive Query Execution自适应查询(SparkSQL)

由于缺乏或者不准确的数据统计信息（元数据）和对成本的错误估算（执行计划调度）导致生成的初始执行计划不理想
在Spark3.x版本提供Adaptive Query Execution自适应查询技术
通过在”运行时”对查询执行计划进行优化，允许Planner在运行时执行可选计划，这些可选计划将会基于运行时数据
统计进行动态优化，从而提高性能.
Adaptive Query Execution AQE主要提供了三个自适应优化：

动态合并Shuffle Partitions
可以动态调整shuffle分区的数量。用户可以在开始时设置相对较多的shuffle分区数，AQE会在运行时将相邻的小分区合并为较大的分区。
动态调整Join策略
此优化可以在一定程度上避免由于缺少统计信息或着错误估计大小（当然也可能两种情况同时存在），而导致执行计划性能不佳的情况，比如某个join操作中其中一个数据集很小，通过网络io的shuffle次数会比较多。这种自适应优化可以在运行时sort merge join转换成broadcast hash join,从而进一步提升性能，也就是我们之前提到的将小数据集发送到各executor的线程中
动态优化倾斜Join(Skew Joins)
skew joins可能导致负载的极端不平衡，并严重降低性能。在AQE从shuffle文件统计信息中检测到任何倾斜后，它可以将倾斜的分区分割成更小的分区，并将它们与另一侧的相应分区连接起来。这种优化可以并行化倾斜处理，获得更好的整体性能。A0分组的数据量比较大，会动态给它拆分，达到各分组数据集大小平衡

在这里插入图片描述
触发条件：
l.分区大小>spark.sql.adaptive.skewJoin.skewedPartitionFactor(default:=lO)*"median partition size(中位数分区大小)
2.分区大小>spark.sql.adaptive.skewJoin.skewedPartitionThresholdInBytes(default=256MB)

开启AQE方式
set spark.sql.adaptive.enabled true;

总的来看，我们无需人为设置复杂参数，只需设置AQE，spark就可以自动化优化sparksql查询

动态分区裁剪

该特性无需人为开启，spark3.x会根据具体sparksql语句来实现分区数的动态裁剪，提升性能

koalas API

该api是为了让开发者能在分布式环境中，模拟pandas数据处理，更高效地处理大数据，弥补pandas仅限单节点运行的缺点，我们python开发者就有两种编程选择，pyspark和koalas

小蜜蜂爱编程

关注

5
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
spark3.x新特性

此优化可以在一定程度上避免由于缺少统计信息或着错误估计大小（当然也可能两种情况同时存在），而导致执行计划性能不佳的情况，比如某个join操作中其中一个数据集很小，通过网络io的shuffle次数会比较多。在AQE从shuffle文件统计信息中检测到任何倾斜后，它可以将倾斜的分区分割成更小的分区，并将它们与另一侧的相应分区连接起来。A0分组的数据量比较大，会动态给它拆分，达到各分组数据集大小平衡。用户可以在开始时设置相对较多的shuffle分区数，AQE会在运行时将相邻的小分区合并为较大的分区。
复制链接

扫一扫