大数据技术之SparkSQL（四）RDD、DataFrame、DataSet异同

最新推荐文章于 2023-12-24 06:30:00 发布

BAO7988

最新推荐文章于 2023-12-24 06:30:00 发布

阅读量355

点赞数

分类专栏：大数据文章标签：大数据大数据开发大数据分析大数据入门 spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/BAO7988/article/details/103633013

版权

本文探讨SparkSQL中的RDD、DataFrame和DataSet的区别与共性。它们都是Spark的分布式数据集，具备惰性机制和自动缓存。DataFrame与DataSet支持SparkSQL操作，DataFrame常用保存方式能带上表头。DataSet提供了更强的类型安全，而DataFrame适用于适配性强的函数。随着版本发展，DataSet逐渐成为主要API。

摘要由CSDN通过智能技术生成

2.5 RDD、DataFrame、DataSet

大数据技术之SparkSQL（四）RDD、DataFrame、DataSet异同

在SparkSQL中Spark为我们提供了两个新的抽象，分别是DataFrame和DataSet。他们和RDD有什么区别呢？首先从版本的产生上来看：

RDD (Spark1.0) —> Dataframe(Spark1.3) —> Dataset(Spark1.6)

如果同样的数据都给到这三个数据结构，他们分别计算之后，都会给出相同的结果。不同是的他们的执行效率和执行方式。

在后期的Spark版本中，DataSet会逐步取代RDD和DataFrame成为唯一的API接口。

2.5.1 三者的共性

1、RDD、DataFrame、Dataset全都是spark平台下的分布式弹性数据集，为处理超大型数据提供便利

2、三者都有惰性机制，在进行创建、转换，如map方法时，不会立即执行，只有在遇到Action如foreach时，三者才会开始遍历运算。

3、三者都会根据spark的内存情况自动缓存运算，这样即使数据量很大，也不用担心会内存溢出。

4、三者都有partition的概念

5、三者有许多共同的函数，如filter，排序等

6、在对DataFrame和Dataset进行许多操作都需要import spark.implicits._这个包进行支持

7、DataFrame和Dataset均可使用模式匹配获取各个字段的值和类型

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。