SparkSQL执行流程与Catalyst优化器

目录

一、SparkSQL运行流程与Catalyst优化器

        (1)RDD运行流程

        (2)SparkSQL自动优化

        (3)Catalyst优化器流程

        (4)Catalyst优化器总结

        (5)Spark SQL执行流程


一、SparkSQL运行流程与Catalyst优化器

        (1)RDD运行流程
RDD简要流程

        (2)SparkSQL自动优化

        RDD的运行会完全安装开发者的代码执行,如果开发者水平有限,RDD的执行效率也会受到影响。而SparkSQL会对写完的代码,执行“ 自动优化 ”,以提高代码运行效率,比米娜开发者水平影响到代码执行效率。

        为什么Spark SQL可以自动优化,而RDD不可以?因为RDD内含数据类型不限格式和结构,而Data Frame 100%是二维表结构,可以针对性的进行优化。Spark SQL的自动优化,依赖于Catalyst优化器。

        (3)SparkSQL架构

        为了解决过多依赖Hive 的问题,SparkSQL使用了一个新的SQL优化器替代 Hive 中的优化器,这个优化器就是Catalyst,整个SparkSQL的架构大致如下:

        1.API层简单的说就是Spark 会通过一些API接受SQL语句.

        2.收到SQL语句以后,将其交给Catalyst,Catalyst负责解析SQL,生成执行计划等

        3.Catalyst的输出应该是RDD的执行计划.

        4.最终交由集群运行.

        (3)Catalyst优化器流程

        Step 1:解析SQL,并且生成AST(抽象语法树,从下往上读)

        Step2:在AST中加入元数据信息,做这一步主要是为了一些优化,如下图

        Step3:对已经加入元数据的AST,输入优化器,继续优化,从两种常见的优化开始。

        ①断言下推(Predicate Pushdown):将filter这种可以减少数据集的操作下推,放在Scan的位置,这样就可以减少操作时候的数据量。

        如下图:正常流程是先Join,然后做WHERE,断言下推后,会先过滤age,然后再Join,减少Join的数据量提高性能。

        ②列值裁剪(Column Pruning):在断言下推后执行裁剪。

        如下图:由于people表之上的操作只用到了id列,所有可以把其他列裁剪掉,这样就可以减少处理的数据量,从而优化处理速度。

        还有其余许多优化点,大概一共有一两百种,随着Spark SQL发展也会越来越多,想要了解更多可以查阅Spark源码:org.apache.spark.sql.catalyst.optimizer.Optimizer

        Step4:经过上述流程后,产生的AST其实最终还没有办法直接运行,这个AST叫做逻辑计划,结束后,需要生成物理计划,从而生成RDD来运行。

        在生成“ 物理计划 ”的时候,会经过“ 成本模型 ”对整棵树再次执行优化,选择一个更好的计划,在生成“ 物理计划 ”以后,因为考虑到性能,所有会使用代码生成,在机器中运行。可以使用queryExecution 方法查看逻辑执行计划,使用explain方法查看物理执行计划

        (4)Catalyst优化器总结

        catalyst的各种优化细节非常多,大方面的优化点有2个:

        ①谓词下推(Predicate Pushdown)\断言下推:将逻辑判断提前到前面,以减少shuffle阶段的数据量。简述,行过滤,提前执行where。

        ②列值裁剪(Column Pruning):将加载的列进行裁剪,尽量减少被处理数据的宽度。简述,列过滤,提前规划select的字段数量。

        (5)Spark SQL执行流程

        1.提交SparkSQL代码

        2.catalyst优化

                a.生成原始AST语法数

                b.标记AST元数据

                c.进行断言下推和列值裁剪以及其它方面的优化作用在AST上

                d.将最终AST得到,生成执行计划

                e.将执行计划翻译为RDD代码

        3. Driver执行环境入口构建(SparkSession)

        4.DAG调度器规划逻辑任务

        5.TASK调度区分配逻辑任务到具体Executor上工作并监控管理任务

        6. Worker干活.

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
SparkSQL执行流程可以简单概括为以下几个步骤: 1. 初始化SparkSession:首先需要初始化一个SparkSession对象,可以通过builder()方法进行设置,包括设置应用程序名称、master等参数。 2. 创建数据表并读取数据:使用SparkSession的read方法读取数据,可以从各种数据源读取,如JSON、CSV等,并将读取的数据创建为一个临时表,可以使用createOrReplaceTempView方法。 3. 执行SQL查询:使用spark.sql方法执行SQL查询语句,可以对临时表进行各种查询操作,如选择、过滤、聚合等,并使用show方法展示查询结果。 4. 生成执行计划:SparkSQL的核心是Catalyst,它负责解析SQL语句并生成执行计划。在执行计划生成的过程中,会进行一系列的优化工作,包括子查询生成、根据需求插入Shuffle操作、合并代码生成阶段、重复使用Shuffle数据和子查询结果等。 5. 准备执行计划:在正式执行物理计划之前,还需要对执行计划进行进一步的优化工作。这一步骤主要是使用一系列预定义的优化规则对SparkPlan进行优化处理,包括生成子查询、确保满足需求、合并代码生成阶段和重复使用Shuffle数据和子查询结果等。 6. 执行物理计划:最后,执行准备好的物理计划,即执行RDD操作,对数据进行实际的处理和计算。 总结起来,SparkSQL执行流程包括初始化SparkSession、创建数据表并读取数据、执行SQL查询、生成执行计划、准备执行计划和执行物理计划。这个流程中,Catalyst扮演着关键的角色,负责SQL语句的解析和执行计划的生成。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *3* [SparkSQL运行流程浅析](https://blog.csdn.net/zc19921215/article/details/119155403)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT0_1"}}] [.reference_item style="max-width: 50%"] - *2* [【SparkSpark SQL 执行全过程概述](https://blog.csdn.net/weixin_45545090/article/details/125038204)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT0_1"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

吗喽也是命

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值