SparkSql概念总结

每日小新

已于 2022-03-04 21:06:19 修改

阅读量316

点赞数 2

分类专栏： Java+大数据之旅文章标签： spark

于 2022-02-17 12:00:00 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/llAl_lAll/article/details/122967476

版权

Java+大数据之旅专栏收录该内容

112 篇文章 34 订阅

订阅专栏

SparkSql😋

目录

- - SparkSql😋

1、Spark on Hive和Hive on Spark

Spark on Hive：即Hive只作为存储角色，Spark负责sql解析优化，执行
Hive on Hive：即Hvie不仅存储又作解析，SPark来负责执行

2、DataFrame和DataSet

在这里插入图片描述

DataFrame:底层依旧是RDD,通过将数据转换成DataFrame对象，即二维表再进行sql,DataFrame对象内表示一行一行的数据，主要是提高执行效率和执行优化
DataSet:是分布式的数据集合，提供强类型的支持，作用与DataFrame类似，不过DataFrame属于DataSet的一种特例DataFrame=DataSet[Row]

3、SparkSql底层架构

首先Sql命令会经过Sql解析器，解析层逻辑语句，再由LogicalPlan将逻辑语句编译成逻辑计划，再经过优化规则对逻辑计划进行优化，最后经过SparkPlanner变成一批批物理计划（整体流程与hive相似）

4、什么是谓词下推？

Predicate Pushdown简称谓词下推,简单说就是通过将筛选条件进行提前执行并不影响最后的结果即可，谓词下推后，过滤条件再map执行，大大减少了map端的输出，提高了reduce拉取数据的效率，节约了资源，提高了任务的执行能力。

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
1
评论
SparkSql概念总结

SparkSql????1、Spark on Hive和Hive on SparkSpark on Hive：即Hive只作为存储角色，Spark负责sql解析优化，执行Hive on Hive：即Hvie不仅存储又作解析，SPark来负责执行2、DataFrame和DataSetDataFrame:底层依旧是RDD,通过将数据转换成DataFrame对象，即二维表再进行sql,DataFrame对象内表示一行一行的数据，主要是提高执行效率和执行优化DataSet:是分布式的数
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

每日小新 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。