04 Spark SQL

最新推荐文章于 2024-10-19 14:23:25 发布

m0_59811476

最新推荐文章于 2024-10-19 14:23:25 发布

阅读量849

点赞数 31

分类专栏： pyspark应用技术文章标签： spark sql 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_59811476/article/details/138171005

版权

pyspark应用技术专栏收录该内容

4 篇文章 1 订阅

订阅专栏

Spark SQL

Spark SQL概述

大数据领域，SQL 的重要性无需多言，甚至称得上是“万物皆可 SQL 化”。不管是做平台的，还是做应用的，都免不了跟 SQL 打交道。大数据工程师们跟 SQL 的关系紧密。

从 Hive/Spark SQL 等最原始、最普及的 SQL 查询引擎，到 Kylin/ClickHouse 等 OLAP 引擎，再到流式的 Flink SQL/Kafka SQL，大数据的各条技术栈，都在或多或少地往 SQL 方向靠拢。缺乏对 SQL 的支持会让自身的技术架构逊色不少，同时也会影响使用的便利性。

Spark SQL 是 Spark 中用来处理结构化数据的一个模块，它提供了一个编程抽象（DataFrame），并且可以作为分布式 SQL 的查询引擎。

Spark SQL是Spark生态系统中非常重要的组件，其前身为Shark。Shark是Spark上的数据仓库，最初设计成与Hive兼容，但是该项目于2014年开始停止开发，转向Spark SQL。Spark SQL全面继承了Shark，并进行了优化。

Spark SQL 可以将数据的计算任务通过 SQL 的形式转换成 RDD再提交到集群执行计算，类似于 Hive 通过 SQL 的形式将数据的计算任务转换成 MapReduce，大大简化了编写 Spark 数据计算操作程序的复杂性，且执行效率比 MapReduce 这种计算模型高。

Spark SQL特点

Spark SQL 有以下特点：

和 Spark Core 的无缝集成，可以在写整个 RDD 应用程序时，配置 Spark SQL 来完成逻辑实现。
统一的数据访问方式，Spark SQL 提供标准化的 SQL 查询。
Hive 的继承，Spark SQL 通过内嵌的 Hive 或者连接外部已经部署好的 Hive 案例，实现了对 Hive 语法的继承和操作。
标准化的连接方式，Spark SQL 可以通过启动 Thrift Server 来支持 JDBC、ODBC 的访问，将自己作为一个 BI Server 使用。

Spark SQL与HIVE对比

在这里插入图片描述

Hive和Spark均是：“分布式SQL计算引擎”
均是构建大规模结构化数据计算的绝佳利器，同时SparkSQL拥有更好的性能。
目前，企业中使用Hive仍旧居多，但SparkSQL将会在很近的未来替代Hive成为分布式SQL计算市场的顶级。

Spark SQL运行原理

运行原理：将 Spark SQL 转化为 RDD，然后提交到集群执行
在这里插入图片描述

Spark SQL 数据抽象

RDD、DataFrame、DataSet 的区别

结构上的区别

请添加图片描述
上图直观地体现了DataSet、DataFrame和RDD的区别。

左侧的RDD[Person]虽然以Person为类型参数，但Spark框架本身不了解Person类的内部结构。
中间的DataFrame却提供了详细的结构信息，使得Spark SQL可以清楚地知道该数据集中包含哪些列，每列的名称和类型各是什么。DataFrame是为数据提供了Schema的视图。可以把它当做数据库中的一张表来对待。
DataSet[Person]：不单有 Schema 信息，还有类型信息。

DataFrame也是懒执行的，DataSet懒执行、RDD懒执行。

结构区别案例

假设 RDD[Person] 中有两行数据：
请添加图片描述

DataFrame 中的数据为：
请添加图片描述

Dataset[Person] 中的数据为：
请添加图片描述
从数据上能更直观地看出 RDD、DataFrame、DataSet 之间的区别。

参考

初识 Spark SQL | 20张图详解 Spark SQL 运行原理及数据抽象

Spark——一文理解SparkSQL的基础概念、函数、执行流程和优化流程

Spark入门: Spark SQL简介(Python版)

关注

31
点赞
踩
9

收藏

觉得还不错? 一键收藏
4
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

m0_59811476 CSDN认证博客专家 CSDN认证企业博客

码龄3年

17: 原创

104万+: 周排名

13万+: 总排名

1万+: 访问

: 等级

333: 积分

276: 粉丝

156: 获赞

15: 评论

105: 收藏

私信

关注

热门文章

分类专栏

最新评论

03 Spark Core基础概念
普通网友: 优质好文，博主的文章细节很到位，兼顾实用性和可操作性，期待博主持续带来更多好文【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
02. PySpark3程序入口
普通网友: 这篇文章是优质之作，内容充实，结构明晰，语言流畅且通俗易懂，适合广大读者阅读。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
04 Spark SQL
普通网友: 干货满满，实用性强，博主的写作风格简洁明了，让人一目了然。文章涵盖了很多实用的知识点。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
02. PySpark3程序入口
普通网友: 干货满满，细节很到位！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
03 Spark Core基础概念
普通网友: 好文，细节很到位！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】

大家在看

最新文章

目录

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。