Using Catalyst in Spark SQL

最新推荐文章于 2022-08-01 10:59:21 发布

MichaelZhu

最新推荐文章于 2022-08-01 10:59:21 发布

阅读量224

收藏

点赞数

分类专栏：大数据相关文章标签： spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/a5685263/article/details/106201019

版权

大数据相关专栏收录该内容

8 篇文章 2 订阅

订阅专栏

在SparkSQL中, 把一条SQL语句转化成对应的RDD任务, 完成这一过程(后续用"解析SQL到RDD"过程代替这一过程)全部在Catalyst框架实现.

"解析SQL到RDD"这一过程, 主要包含了4个组成部分, 如下图所示

analyzing a logical plan to resolve references(分析逻辑计划用于解析引用)

SparkSQL开始是一个待计算的关系, 要么是被SQL parser返回的abstract syntax tree(AST), 要么是使用API构造的DataFrame对象.

这两种情况下,待计算的关系都包含unresolved 属性引用或者关系. (简单说,就是缺失schema)

SparkSQL用Catalyst Rules和一个Catalog对象从元数据找到schema, 构建Logical Plan.

logical plan optimization(逻辑计划优化)

Logical Optimiztion阶段应用标准的RBO(rule-based optimization)去优化Logical Plan.

RBO包括constant folding、predicate pushdown(谓词下推)、projection pruning、null propagation、Boolean expression simplification等等规则.

physical planning(物理计划)

The Physical Planning阶段, 根据Optimized Logical Plan生成一个或多个物理计划. 用cost model选择一个计划. 这个阶段, CBO(cost-based optimization)仅仅用于选择join算法. 针对数据较小的表, Spark SQL使用broadcast join.

code generation(代码生成)

在每台有数据的机器上生成Java二进制代码(移动数据不如移动代码).

代码的具体实现, 请跳转到下面的链接.

SparkSQL 如何把sqlText转化成RDD可以执行的tasks 系列

MichaelZhu

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。

余额充值