Spark SQL / Catalyst 内部原理与 RBO

最新推荐文章于 2024-08-01 15:56:38 发布

十一技术斩

最新推荐文章于 2024-08-01 15:56:38 发布

阅读量256

点赞数

文章标签： mysql 数据库后端 java 经验分享

本文链接：https://blog.csdn.net/uuqaz/article/details/123898870

版权

本文深入探讨Spark SQL的架构，从Parser解析SQL开始，通过Analyzer获取Resolved Logical Plan，然后在Optimizer中进行RBO，如PushdownPredicate、ConstantFolding和ColumnPruning等，最终由SparkPlanner转化为Physical Plan。CBO则基于Cost Model选择最优执行计划，提升执行效率。

摘要由CSDN通过智能技术生成

Spark SQL 架构

Spark SQL 的整体架构如下图所示

从上图可见，无论是直接使用 SQL 语句还是使用 DataFrame，都会经过如下步骤转换成 DAG 对 RDD 的操作

Parser 解析 SQL，生成 Unresolved Logical Plan
由 Analyzer 结合 Catalog 信息生成 Resolved Logical Plan
Optimizer根据预先定义好的规则对 Resolved Logical Plan 进行优化并生成 Optimized Logical Plan
Query Planner 将 Optimized Logical Plan 转换成多个 Physical Plan
CBO 根据 Cost Model 算出每个 Physical Plan 的代价并选取代价最小的 Physical Plan 作为最终的 Physical Plan
Spark 以 DAG 的方法执行上述 Physical Plan
在执行 DAG 的过程中，Adaptive Execution 根据运行时信息动态调整执行计划从而提高执行效率

Parser

Spark SQL 使用 Antlr 进行记法和语法解析，并生成 UnresolvedPlan。

当用户使用 SparkSession.sql(sqlText : String) 提交 SQL 时，SparkSession 最终会调用 SparkSqlParser 的 parsePlan 方法。该方法分两步

使用 Antlr 生成的 SqlBaseLexer 对 SQL 进行词法分析，生成 CommonTokenStream
使用 Antlr 生成的 SqlBaseParser 进行语法分析，得到 LogicalPlan

现在两张表，分别定义如下

CREATE TABLE score (
  id INT,
  math_score INT,
  english_score INT
)

CREATE TABLE people (
  id INT,
  age INT,
  name INT
)

对其进行关联查询如下

SELECT sum(v)
FROM (
  SELECT score.id,
    100 + 80 + score.math_score + score.english_score AS v
  FROM people
  JOIN score
  ON people.id = score.id
  AND people.age > 10
) tmp

生成的 UnresolvedPlan 如下图所示。

从上图可见

查询涉及的两张表，被解析成了两个 UnresolvedRelation，也即只知道这们是两张表，却并不知道它们是 EXTERNAL TABLE 还是 MANAGED TABLE，也不知道它们的数据存在哪儿，更不知道它们的表结构如何
sum(v) 的结果未命名
Project 部分只知道是选择出了属性，却并不知道这些属性属于哪张表，更不知道其数据类型
Filter 部分也不知道数据类型

Spark SQL 解析出的 UnresolvedPlan 如下所示