SparkSQL 个人总结

最新推荐文章于 2024-04-30 22:35:32 发布

嘚瑟_

最新推荐文章于 2024-04-30 22:35:32 发布

阅读量106

点赞数

文章标签： spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_70220205/article/details/132740860

版权

1.SparkSql是什么？

1. SparkSql 是Spark生态体系中的一个基于SparkCore的SQL处理模块

2. 用途是处理具有结构化的数据文件的

3. 前身叫Shark，由于Shark是基于Hive，而Hive的发展限制了Shark的功能更新，因此该项目的负责人停止项目的发展，将相应的SQl处理功能独立出来，更名为SparkSQL

4. SparkSQL也是基于内存和RDD的

5. 本质是SparkSQL会在底层转成sparkcore程序

2.SparkSQL的特点

1.无缝整合：无缝的整合了SQL查询和Spark编程，可以使用熟悉的sql在spark中查询结构化数据

2.统一的数据访问接口：可以使用统一的访问接口来访问不同的数据源，如mysql，hive，jdbc等

3.hive集成：可以使用sparksql直接访问hive的数据

4.提供了标准的jdbc和odbc连接接口：可以像其他语言一样，使用jdbc或者odbc连接RDBMS等

3.1SparkSQL的数据模型

RDD：RDD是弹性分布式数据集，是一个不存储数据的，不可变，可分区的，并行计算的数据集合

DataFrame：RDD是一个弹性分布式数据集，DataFrame在RDD的基础上加了Schema的概念,这里的Schema就是表头。扩展：Schema表示描述数据的数据，即可以认为是元数据， DataFrame曾经就有个名字叫SchemaRDD

DataSet：DataSet 也是一种弹性分布式数据集，在RDD的基础上提供了强制类型检测和转换的功能

3.2三者的共性

1、RDD、DataFrame、Dataset全都是spark平台下的分布式弹性数据集，为处理超大型数据提供便利

2、三者都有惰性机制，在进行创建、转换，如map方法时，不会立即执行，只有在遇到Action如foreach时，三者才会开始遍历运算，极端情况下，如果代码里面有创建、转换，但是后面没有在Action中使用对应的结果，在执行时会被直接跳过。

3.3三者的区别

RDD:

1.RDD一般和spark mlib 同时使用

2.RDD不支持sparksql操作

DataFrame：

1.与RDD和Data不同，DataFrame每一行的类型固定为Row，只有通过解析才能获取各个字段的值

2、DataFrame与Dataset一般不与spark ml同时使用

3、DataFrame与Dataset均支持sparksql的操作，比如select，groupby之类，还能注册临时表/视窗，进行sql语句操作

4、DataFrame与Dataset支持一些特别方便的保存方式，比如保存成csv，可以带上表头，这样每一列的字段名一目了然，利用这样的保存方式，可以方便的获得字段名和列的对应，而且分隔符（delimiter）可以自由指定。

Dataset:

Dataset和DataFrame拥有完全相同的成员函数，区别只是每一行的数据类型不同。

DataFrame也可以叫Dataset[Row],每一行的类型是Row，不解析，每一行究竟有哪些字段，各个字段又是什么类型都无从得知，只能用上面提到的getAS方法或者共性中的第七条提到的模式匹配拿出特定字段

而Dataset中，每一行是什么类型是不一定的，在自定义了case class之后可以很自由的获得每一行的信息

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
SparkSQL 个人总结

2、三者都有惰性机制，在进行创建、转换，如map方法时，不会立即执行，只有在遇到Action如foreach时，三者才会开始遍历运算，极端情况下，如果代码里面有创建、转换，但是后面没有在Action中使用对应的结果，在执行时会被直接跳过。4、DataFrame与Dataset支持一些特别方便的保存方式，比如保存成csv，可以带上表头，这样每一列的字段名一目了然，利用这样的保存方式，可以方便的获得字段名和列的对应，而且分隔符（delimiter）可以自由指定。1.RDD一般和spark mlib 同时使用。
复制链接

扫一扫

嘚瑟_ CSDN认证博客专家 CSDN认证企业博客

码龄2年

31: 原创

58万+: 周排名

25万+: 总排名

1万+: 访问

: 等级

318: 积分

3: 粉丝

8: 获赞

15: 评论

22: 收藏

私信

关注

热门文章

最新评论

Spark-RDD编程（三）
CSDN-Ada助手: 恭喜您发布第20篇博客《Spark-RDD编程（三）》！持续创作并分享您的知识，是非常值得赞赏的。通过您的博客，我学到了很多关于Spark-RDD编程的知识，感谢您的分享。在下一步的创作中，或许可以考虑探讨RDD的高级应用，比如如何优化RDD的性能或者如何与其他Spark组件进行交互。当然，这只是一个建议，我相信您一定有更好的主题选择和创作方向。期待您继续分享更多有价值的内容，谦虚的笔风和专业的知识将会继续吸引更多读者的关注和学习。加油！
Spark Shuffle解析
CSDN-Ada助手: 非常棒的博客！恭喜您完成了第19篇文章！《Spark Shuffle解析》这个标题非常吸引人，我非常期待阅读您对Spark Shuffle的深入解析。您在博客中的内容一定非常丰富和有见地。在下一篇博客中，我建议您可以继续深入探讨Spark Shuffle的优化策略，以及与其他数据处理框架的对比分析。这样的内容对于许多读者来说一定非常有价值，也能够进一步提升您的博客影响力。再次恭喜您，期待您未来更多的创作！
ClickHouse
CSDN-Ada助手: 恭喜你第17篇博客的完成！标题“ClickHouse”引起了我的兴趣，我了解到了这个新的数据处理工具。你对ClickHouse的介绍非常详细，让我对它更加了解了。我希望你能继续保持创作的势头，分享更多有关数据处理和相关工具的知识。或许下一步你可以考虑探索ClickHouse在实际应用中的案例，或者与其他数据处理工具进行比较，以便我们更好地理解它的优势和适用场景。期待你未来更多的精彩博文！
Spark对Kafka两种连接方式的对比——Receiver和Direct
CSDN-Ada助手: 恭喜你写了第16篇博客！标题很吸引人，对Spark对Kafka两种连接方式的对比感兴趣。我非常期待阅读你的文章，了解更多关于Receiver和Direct连接方式的差异。不过，我也希望你能在文章中加入一些实际案例或者性能比较，这样读者可以更清楚地了解两种连接方式的优劣。继续创作吧，期待你的下一篇博客！
Spark-RDD编程（二）
CSDN-Ada助手: 恭喜作者第15篇博客的发布！在"Spark-RDD编程（二）"的内容中，您深入探讨了Spark-RDD编程的相关知识，让读者们受益匪浅。您的博客内容通俗易懂，帮助读者更好地理解Spark-RDD编程。接下来，我建议您可以考虑分享一些实际案例或者使用技巧，以帮助读者在实践中更好地运用Spark-RDD编程。期待您的下一篇博客的发布，再次表示对您的努力和付出致以衷心的祝贺！

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。