sparkSql 中三大数据抽象Rdd,dataFrame,dataSet 详述

最新推荐文章于 2024-05-10 03:12:27 发布

置顶

shining0903lxy

最新推荐文章于 2024-05-10 03:12:27 发布

阅读量1.1k

点赞数 2

分类专栏： spark 文章标签： spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43548518/article/details/104756819

版权

1.Rdd
RDD（Resilient Distributed Dataset）叫做分布式数据集，是Spark中最基本的数据抽象。代码中是一个抽象类，它代表一个不可变、可分区、里面的元素可并行计算的集合。

2.dateFrame
与RDD类似，DataFrame也是一个分布式数据容器
但是dataFrame 更像一个传统的二维表,既有数据.又有数据结构即schema信息

3.dateFrame和Rdd的区别
在这里插入图片描述
上图直观地体现了DataFrame和RDD的区别。左侧的RDD[Person]虽然以Person为类型参数，但Spark框架本身不了解Person类的内部结构。而右侧的DataFrame却提供了详细的结构信息，使得Spark SQL可以清楚地知道该数据集中包含哪些列，每列的名称和类型各是什么。DataFrame是为数据提供了Schema的视图。可以把它当做数据库中的一张表来对待，DataFrame也是懒执行的。性能上比RDD要高

总得来说dateFrame 就是在Rdd 基础上加了结构信息，并做了执行优化

4.dataSet
dataFrame 理解为二维表的话在rdd上加了结构，
dataSet 理解为类或者对象，里面字段理解为类属性，访问更简单粗暴
可以直接用面向对象语言访问

1）是Dataframe API的一个扩展，是Spark最新的数据抽象。

2）用户友好的API风格，既具有类型安全检查也具有Dataframe的查询优化特性。

3）Dataset支持编解码器，当需要访问非堆上的数据时可以避免反序列化整个对象，提高了效率。

4）样例类被用来在Dataset中定义数据的结构信息，样例类中每个属性的名称直接映射到DataSet中的字段名称。

5） Dataframe是Dataset的特列，DataFrame=Dataset[Row] ，所以可以通过as方法将Dataframe转换为Dataset。Row是一个类型，跟Car、Person这些的类型一样，所有的表结构信息我都用Row来表示。

6）DataSet是强类型的。比如可以有Dataset[Car]，Dataset[Person].

7）DataFrame只是知道字段，但是不知道字段的类型，所以在执行这些操作的时候是没办法在编译的时候检查是否类型失败的，比如你可

最低0.47元/天解锁文章

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
sparkSql 中三大数据抽象Rdd,dataFrame,dataSet 详述

1.Rdd2.dateFrame3.dataSet4.Rdd和dataFrame 相互转化5.Rdd和dataSet 相互转化6.dataFrame和dataSet 相互转化7.Rdd,dataFrame,dataSet的共性,区别
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。