SparkSQL在整个执行计划处理的过程中,使用了Catalyst 优化器。
1 基于RBO的优化
在Spark 3.0 版本中,Catalyst 总共有 81 条优化规则(Rules),分成 27 组(Batches),其中有些规则会被归类到多个分组里。因此,如果不考虑规则的重复性,27 组算下来总共会有 129 个
本文详细介绍了SparkSQL的优化策略,包括基于RBO的谓词下推、列剪裁和常量替换,以及基于CBO的统计信息收集和使用。此外,还讨论了广播Join和SMB Join的优化方法,帮助提升SparkSQL的执行效率。
SparkSQL在整个执行计划处理的过程中,使用了Catalyst 优化器。
在Spark 3.0 版本中,Catalyst 总共有 81 条优化规则(Rules),分成 27 组(Batches),其中有些规则会被归类到多个分组里。因此,如果不考虑规则的重复性,27 组算下来总共会有 129 个
216
624
962
566
1171

被折叠的 条评论
为什么被折叠?