[Spark SQL] 源码解析之Optimizer

最新推荐文章于 2022-11-22 14:44:03 发布

大写的UFO

最新推荐文章于 2022-11-22 14:44:03 发布

阅读量660

点赞数 1

文章标签： sparksql Optimizer 源码

本文链接：https://blog.csdn.net/UUfFO/article/details/80591714

版权

本文详细解析Spark SQL中的optimizer模块，探讨其在解析流程中的作用，包括LogicalPlan的优化过程，如谓词下推、列值裁剪等，并介绍优化规则的执行方式。

摘要由CSDN通过智能技术生成

前言

由前面博客我们知道了SparkSql整个解析流程如下：

sqlText 经过 SqlParser 解析成 Unresolved LogicalPlan;
analyzer 模块结合catalog进行绑定,生成 resolved LogicalPlan;
optimizer 模块对 resolved LogicalPlan 进行优化,生成 optimized LogicalPlan;
SparkPlan 将 LogicalPlan 转换成PhysicalPlan;
prepareForExecution()将 PhysicalPlan 转换成可执行物理计划;
使用 execute()执行可执行物理计划;

详解optimizer 模块

optimizer 以及之后的模块都只会在触发了action操作后才会执行。优化器是用来将Resolved LogicalPlan转化为optimized LogicalPlan的。

optimizer 就是根据大佬们多年的SQL优化经验来对语法树进行优化，比如谓词下推、列值裁剪、常量累加等。优化的模式和Analyzer非常相近，Optimizer 同样继承了RuleExecutor，并定义了很多优化的Rule：

def batches: Seq[Batch] = {
    // Technically some of the rules in Finish Analysis are not optimizer rules and belong more
    // in the analyzer, because they are needed for correctness (e.g. ComputeCurrentTime).
    // However, because we also use the analyzer to canonicalized queries (for view definition),
    // we do not eliminate subqueries or compute current time in the analyzer.
    Batch("Finish Analysis", Once,
      EliminateSubqueryAliases,
      EliminateView,
      ReplaceExpressions,
      ComputeCurrentTime,
      GetCurrentDatabase(sessionCatalog),
      RewriteDistinctAggregates,
      ReplaceDeduplicateWithAggregate) ::

最低0.47元/天解锁文章

大写的UFO

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
[Spark SQL] 源码解析之Optimizer

前言由前面博客我们知道了SparkSql整个解析流程如下：sqlText 经过 SqlParser 解析成 Unresolved LogicalPlan;analyzer 模块结合catalog进行绑定,生成 resolved LogicalPlan;optimizer 模块对 resolved LogicalPlan 进行优化,生成 optimized LogicalPlan;S...
复制链接

扫一扫