RDD、DataFrame和DataSet

cluse_ld

已于 2022-08-21 10:08:53 修改

阅读量289

点赞数

分类专栏： spark 文章标签： spark 大数据分布式

于 2022-08-20 22:15:07 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Laoddaaa/article/details/126445117

版权

spark 专栏收录该内容

18 篇文章 0 订阅

订阅专栏

同样的数据给到三个数据结构，分别计算后都会给出相同的结果。但是在执行效率和执行方式上有所不同。在后期的Spark版本中，DataSet有可能会逐步取代RDD和DataFrame成为唯一个API接口

三者的共性

三者都是Spark平台的分布式弹性数据集，为处理超大型数据提供便利
三者都有惰性机制即：在进行创建、转换，如map方法时，不会立即执行，只有在遇到Action如foreach时，才会开始遍历运算。
有许多共同的函数，如filter，sort等
三者都会根据 Spark 的内存情况自动缓存运算，这样即使数据量很大，也不用担心会内存溢出
三者都有partition的概念
DataFrame 和 DataSet 均可使用模式匹配获取各个字段的值和类型

三者的区别

RDD不支持sparkSQL操作。
DataFrame的值不能直接访问，只有通过解析才能获取各个字段的值；DataFrame 与 DataSet 支持一些特别方便的保存方式，比如保存成 csv，可以带上表头，这样每一列的字段名一目了然
Dataset 和 DataFrame 拥有完全相同的成员函数，区别只是每一行的数据类型不同。

三者的互相转换

在这里插入图片描述

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
RDD、DataFrame和DataSet

RDD、DataFrame和DataSet
复制链接

扫一扫

专栏目录

cluse_ld CSDN认证博客专家 CSDN认证企业博客

码龄3年

187: 原创

33万+: 周排名

81万+: 总排名

5万+: 访问

: 等级

1899: 积分

8: 粉丝

22: 获赞

15: 评论

83: 收藏

私信

关注

热门文章

分类专栏

23春招复习 2篇
大数据面经 2篇
zookeeper 5篇
计算机网络 4篇
jdk 3篇
集合 3篇
LeetCode 27篇
spark 18篇
hive 10篇
MapReduce 5篇
JUC 15篇
JVM 1篇
剑指 Offer 60篇
scala 4篇
hbase 2篇
sqoop 1篇
kafka 8篇
flume 3篇
hadoop 4篇
Yarn 2篇
hdfs 5篇

最新评论

携程面经1
CSDN-Ada助手: Java 技能树或许可以帮到你：https://edu.csdn.net/skill/java?utm_source=AI_act_java
ArrayList和LinkedList的区别
CSDN-Ada助手: 不知道算法技能树是否可以帮到你：https://edu.csdn.net/skill/algorithm?utm_source=AI_act_algorithm
同步锁的分类
路遥万里: 太全面了吧
CC23 最长的连续元素序列长度
cluse_ld: 你不是我第一个铁粉天理难容
CC23 最长的连续元素序列长度
路遥万里: 博主666

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。