Spark-Sql源码解析之五 Spark Planner：optimized logical plan –> spark plan

最新推荐文章于 2023-09-20 23:17:07 发布

亮亮-AC米兰

最新推荐文章于 2023-09-20 23:17:07 发布

阅读量3.1k

点赞数 1

本文链接：https://blog.csdn.net/wl044090432/article/details/52189729

版权

本文主要探讨Spark SQL中，经过Analyzer和Optimizer优化后的Logical Plan如何转换成Spark Plan的过程。通过一个SQL语句示例，详细解释了LogicalPlan在HashAggregation策略下的转化步骤，展示了Spark如何逐步构建物理执行计划。

摘要由CSDN通过智能技术生成

前面描述的主要是逻辑计划，即sql如何被解析成logicalplan，以及logicalplan如何被analyzer以及optimzer，接下来主要介绍逻辑计划如何被翻译成物理计划，即SparkPlan。

lazy val sparkPlan: SparkPlan = {
  SparkPlan.currentContext.set(self)
  planner.plan(optimizedPlan).next()
}

当optimizedPlan经过planner转化之后就变为sparkPlan了。因此首先看下planner是什么？

protected[sql] val planner = new SparkPlanner
//包含不同策略的策略来优化物理执行计划
protected[sql] class SparkPlanner extends SparkStrategies {
  val sparkContext: SparkContext = self.sparkContext
  val sqlContext: SQLContext = self
  def codegenEnabled: Boolean = self.conf.codegenEnabled
  def unsafeEnabled: Boolean = self.conf.unsafeEnabled
  def numPartitions: Int = self.conf.numShufflePartitions
  //把LogicPlan转换成实际的操作，具体操作类在org.apache.spark.sql.execution包下面
  def strategies: Seq[Strategy] =
    experimental.extraStrategies ++ (
    DataSourceStrategy ::
    DDLStrategy ::
    //把limit转换成TakeOrdered操作
    TakeOrdered ::
    //转换聚合操作
    HashAggregation ::
    //left semi join只显示连接条件成立的时候连接左边的表的信息
    // 比如select * from table1 left semi join table2 on(table1.student_no=table2.student_no);
    // 它只显示table1中student_no在表二当中的信息，它可以用来替换exist语句
    LeftSemiJoin ::
      //等值连接操作，有些优化的内容，如果表的大小小于spark.sql.autoBroadcastJoinThreshold设置的字节
      //就自动转换为BroadcastHashJoin，即把表缓存，类似hive的map join（顺序是先判断右表再判断右表）。
      //这个参数的默认值是10000
      //另外做内连接的时候还会判断左表右表的大小，shuffle取数据大表不动，从小表拉取数据过来计算
    HashJoin ::
    //在内存里面执行select语句进行过滤,会做缓存
    InMemoryScans ::
      //和parquet相关的操作
      ParquetOperations ::
      //基本的操作
      BasicOperators ::
      //没有条件的连接或者内连接做笛卡尔