【大数据技术干货】一次性完全总结分析spark中的三种抽象数据集（RDD、DataFrame和DataSet）的源码，定义，创建，用法，共性，区别，以及它们相互之间的联系

牵牛刘先生

于 2019-12-13 23:38:26 发布

阅读量325

点赞数 1

分类专栏：物联网&大数据知识的思考，总结和拓展文章标签： spark 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/liuchunhang/article/details/103532906

版权

物联网&大数据知识的思考，总结和拓展专栏收录该内容

23 篇文章 43 订阅 ¥9.90 ¥99.00

订阅专栏

本文详细介绍了Spark中的三种抽象数据集——RDD、DataFrame和DataSet的定义、创建方式、共性、区别和相互联系。RDD作为基础数据结构，提供转化和行动操作；DataFrame在RDD基础上增加了schema信息，提供了关系型操作；而DataSet是DataFrame的类型安全版，支持编译时检查和优化。三种数据集在Spark的不同版本中引入，各自在数据表示、数据格式、类型安全、序列化等方面有独特特点，其中DataFrame和DataSet在性能和内存管理上优于RDD。在实际使用中，根据需求选择合适的数据集，以实现高效的数据处理。

摘要由CSDN通过智能技术生成

一RDD、DataFrame和DataSet的定义

RDD、DataFrame和DataSet的定义

1Spark RDD

①

RDD（Resilient Distributed Dataset）叫做分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、弹性、里面的元素可并行计算的集合。在 Spark 中，对数据的所有操作不外乎创建 RDD、转化已有RDD 以及调用 RDD 操作进行求值。每个 RDD 都被分为多个分区，这些分区运行在集群中的不同节点上。RDD 可以包含 Python、Java、Scala 中任意类型的对象，甚至可以包含用户自定义的对象。RDD具有数据流模型的特点：自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将工作集缓存在内存中，后续的查询能够重用工作集，这极大地提升了查询速度。

②

RDD支持两种操作:转化操作和行动操作。RDD 的转化操作是返回一个新的 RDD的操作，比如 map()和 filter()，而行动操作则是向驱动器程序返回结果或把结果写入外部系统的操作

了解本专栏

牵牛刘先生

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

牵牛刘先生 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。