Spark SQL 通过什么来实现？

最新推荐文章于 2023-04-25 17:47:21 发布

Shockang

最新推荐文章于 2023-04-25 17:47:21 发布

阅读量9.8k

点赞数 14

分类专栏：大数据技术体系文章标签：大数据 Spark SQL

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/shockang/article/details/118583407

版权

大数据技术体系专栏收录该内容

282 篇文章 555 订阅

订阅专栏

前言

本文隶属于专栏《1000个问题搞定大数据技术体系》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！

本专栏目录结构和参考文献请见1000个问题搞定大数据技术体系

正文

若需处理的数据集是典型结构化数据源，可在 Spark 程序中引入 Spark SQL 模块，

首先读取待处理数据并将其转化为 Spark SQL 的核心数据抽象 - DataFrame ，

进而调用 Dataframe API 来对数据进行分析处理，也可以将 DataFrame 注册成表，直接使用 SQL 语句在数据表上进行交互式查询。

当计算结果时， Spark 底层会使用相同的执行引擎，独立于用来表达计算的 API 编程语言(目前 Spark SQL 主要支持 Scala 、 Python 、 Java 、 R )，

所以开发者可以选择 Scala 、 Python、Java 、 R 中较自己更顺手的编程语言进行 Spark SQL 学习、开发

另外，相比于 RDD ， Spark SQL 模块的数据抽象( DataFrame )不仅提供了更加丰富的算子操作，还清楚地知道该数据集包含哪些列，每一列数据的名称、类型，

并将这些结构信息 ( Schema ) 运用在底层计算、存储和优化中，从而在程序员并没有显式调优的情况下， Spark SQL 模块也会自动根据 DataFrame 提供的结构信息来减少数据读取、提升执行效率以及对执行计划进行优化。

除了 Spark SQL 模块内部自动对计算过程进行丰富、智能地调优外，我们也可以通过手动设置诸多 Spark 应用运行时的参数来更好地配合 Spark 集群 cpu 、内存可用资源以及业务需求等实际情况，进而提升 Spark 应用的执行效率以及整个 Spark 集群的健康有效地运行。

关注

14
点赞
踩
14

收藏

觉得还不错? 一键收藏
22
评论
Spark SQL 通过什么来实现？

前言本文隶属于专栏《1000个问题搞定大数据技术体系》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！本专栏目录结构和参考文献请见1000个问题搞定大数据技术体系正文若需处理的数据集是典型结构化数据源，可在 Spark 程序中引入 Spark SQL 模块，首先读取待处理数据并将其转化为 Spark SQL 的核心数据抽象 - DataFrame ，进而调用 Dataframe API 来对数据进行分析处理，也可以将 DataFrame 注册成表，直接使用 SQL
复制链接

扫一扫

专栏目录

评论 22

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。