Spark(29) -- SparkSQL底层如何执行及分布式SQL引擎

最新推荐文章于 2023-11-21 05:27:29 发布

erainm

最新推荐文章于 2023-11-21 05:27:29 发布

阅读量398

点赞数 2

分类专栏：大数据学习文章标签： spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/eraining/article/details/108947804

版权

大数据学习专栏收录该内容

148 篇文章 5 订阅 ¥49.90 ¥99.00

订阅专栏

超级会员免费看

SparkSQL不同于RDD，它利用Catalyst优化器对SQL和Dataset代码进行解析和优化，生成逻辑和物理执行计划。Catalyst包括Parser、Analyzer和Optimizer，通过规则和代价优化生成高效执行策略。此外，SparkSQL提供了CLI和ThriftServer JDBC/ODBC Server，支持Beeline和JDBC/ODBC客户端进行交互式分析。

摘要由CSDN通过智能技术生成

1. RDD 和 SparkSQL 运行时的区别

RDD 的运行流程
在这里插入图片描述
大致运行步骤

先将 RDD 解析为由 Stage 组成的 DAG, 后将 Stage 转为 Task 直接运行

问题

任务会按照代码所示运行, 依赖开发者的优化, 开发者的会在很大程度上影响运行效率

解决办法

创建一个组件, 帮助开发者修改和优化代码, 但这在 RDD 上是无法实现的

为什么 RDD 无法自我优化?

RDD 没有 Schema 信息
RDD 可以同时处理结构化和非结构化的数据

SparkSQL 提供了什么?<

了解本专栏

超级会员免费看

关注

2
点赞
踩
5

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

erainm 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。