SparkSQL执行流程与Catalyst优化器

吗喽也是命

已于 2023-10-25 21:29:36 修改

阅读量381

点赞数

分类专栏：大数据文章标签：大数据

于 2023-10-25 21:29:09 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2202_75347029/article/details/134042161

版权

大数据专栏收录该内容

41 篇文章 10 订阅

订阅专栏

目录

一、SparkSQL运行流程与Catalyst优化器

（1）RDD运行流程

（2）SparkSQL自动优化

（3）Catalyst优化器流程

（4）Catalyst优化器总结

（5）Spark SQL执行流程

一、SparkSQL运行流程与Catalyst优化器

（1）RDD运行流程

RDD简要流程

（2）SparkSQL自动优化

RDD的运行会完全安装开发者的代码执行，如果开发者水平有限，RDD的执行效率也会受到影响。而SparkSQL会对写完的代码，执行“ 自动优化 ”，以提高代码运行效率，比米娜开发者水平影响到代码执行效率。

为什么Spark SQL可以自动优化，而RDD不可以？因为RDD内含数据类型不限格式和结构，而Data Frame 100%是二维表结构，可以针对性的进行优化。Spark SQL的自动优化，依赖于Catalyst优化器。

（3）SparkSQL架构

为了解决过多依赖Hive 的问题，SparkSQL使用了一个新的SQL优化器替代 Hive 中的优化器，这个优化器就是Catalyst，整个SparkSQL的架构大致如下：

1.API层简单的说就是Spark 会通过一些API接受SQL语句.

2.收到SQL语句以后,将其交给Catalyst,Catalyst负责解析SQL,生成执行计划等

3.Catalyst的输出应该是RDD的执行计划.

4.最终交由集群运行.

（3）Catalyst优化器流程

Step 1：解析SQL，并且生成AST（抽象语法树，从下往上读）

Step2：在AST中加入元数据信息，做这一步主要是为了一些优化，如下图

Step3：对已经加入元数据的AST，输入优化器，继续优化，从两种常见的优化开始。

①断言下推（Predicate Pushdown）：将filter这种可以减少数据集的操作下推，放在Scan的位置，这样就可以减少操作时候的数据量。

如下图：正常流程是先Join，然后做WHERE，断言下推后，会先过滤age，然后再Join，减少Join的数据量提高性能。

②列值裁剪（Column Pruning）：在断言下推后执行裁剪。

如下图：由于people表之上的操作只用到了id列，所有可以把其他列裁剪掉，这样就可以减少处理的数据量，从而优化处理速度。

还有其余许多优化点，大概一共有一两百种，随着Spark SQL发展也会越来越多，想要了解更多可以查阅Spark源码：org.apache.spark.sql.catalyst.optimizer.Optimizer

Step4：经过上述流程后，产生的AST其实最终还没有办法直接运行，这个AST叫做逻辑计划，结束后，需要生成物理计划，从而生成RDD来运行。

在生成“ 物理计划 ”的时候，会经过“ 成本模型 ”对整棵树再次执行优化，选择一个更好的计划，在生成“ 物理计划 ”以后，因为考虑到性能，所有会使用代码生成，在机器中运行。可以使用queryExecution 方法查看逻辑执行计划，使用explain方法查看物理执行计划。

（4）Catalyst优化器总结

catalyst的各种优化细节非常多，大方面的优化点有2个：

①谓词下推(Predicate Pushdown)\断言下推：将逻辑判断提前到前面，以减少shuffle阶段的数据量。简述，行过滤，提前执行where。

②列值裁剪(Column Pruning)：将加载的列进行裁剪，尽量减少被处理数据的宽度。简述，列过滤，提前规划select的字段数量。

（5）Spark SQL执行流程

1.提交SparkSQL代码

2.catalyst优化

a.生成原始AST语法数

b.标记AST元数据

c.进行断言下推和列值裁剪以及其它方面的优化作用在AST上

d.将最终AST得到,生成执行计划

e.将执行计划翻译为RDD代码

3. Driver执行环境入口构建(SparkSession)

4.DAG调度器规划逻辑任务

5.TASK调度区分配逻辑任务到具体Executor上工作并监控管理任务

6. Worker干活.

吗喽也是命

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
SparkSQL执行流程与Catalyst优化器

catalyst的各种优化细节非常多，大方面的优化点有2个：将逻辑判断提前到前面，以减少shuffle阶段的数据量。简述，行过滤，提前执行where。将加载的列进行裁剪，尽量减少被处理数据的宽度。简述，列过滤，提前规划select的字段数量。（5）Spark SQL执行流程1.提交SparkSQL代码2.catalyst优化a.生成原始AST语法数b.标记AST元数据c.进行断言下推和列值裁剪以及其它方面的优化作用在AST上d.将最终AST得到,生成执行计划e.将执行计划翻译为RDD代码。
复制链接

扫一扫

专栏目录

吗喽也是命

CSDN认证博客专家 CSDN认证企业博客

码龄2年

51: 原创

38万+: 周排名

15万+: 总排名

8万+: 访问

: 等级

774: 积分

107: 粉丝

151: 获赞

82: 评论

994: 收藏

私信

关注

热门文章

分类专栏

爬虫 2篇
大数据 41篇

最新评论

Hadoop集群环境配置及安装配置（详细过程包含安装包）
迷雪城: javac跑不出来的可以添加一下javac的软链接ln -s /export/servers/jdk/bin/javac /usr/bin/javac
分布式计算概述（MapReduce && Yarn理论及部署）
kkyyio: 怎么跟着来 yarn运行失败
Hadoop集群环境配置及安装配置（详细过程包含安装包）
嗨-晨星: node2: Permission denied (publickey,gssapi-keyex,gssapi-with-mic,password). node3: Permission denied (publickey,gssapi-keyex,gssapi-with-mic,password). 出现上述报错，可以在node1执行下属代码 ssh-copy-id node1 ssh-copy-id node2 ssh-copy-id node3
Hadoop集群环境配置及安装配置（详细过程包含安装包）
普通网友: 优质好文，博主的文章细节很到位，兼顾实用性和可操作性，期待博主持续带来更多好文【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
Hadoop集群环境配置及安装配置（详细过程包含安装包）
2301_79985178: 博主的文章让我对这个主题有了全新的认识，细节描写非常到位，让我感受到了博主的深厚功底。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

吗喽也是命 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。