DataFrame RDD DataSet

最新推荐文章于 2024-06-22 16:54:28 发布

奥兰治的威廉

最新推荐文章于 2024-06-22 16:54:28 发布

阅读量139

点赞数

分类专栏： Scala

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/q503385724/article/details/88300092

版权

Scala 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

一、基本概念

DataFrame它不是Spark SQL提出的，而是早起在R、Pandas语言就已经有了的。

Dataset： A Dataset is a distributed collection of data：分布式的数据集

DataFrame： A DataFrame is a Dataset organized into named columns. 以列（列名、列的类型、列值）的形式构成的分布式数据集，按照列赋予不同的名称

RDD：弹性分布式数据集 RDD + schema = dataframe RDD套上 schema(表的结构信息)就是 dataframe,它们都是数据集，dataframe更像是一张表

RDD 是一列数据，而dataframe是多列数据，更像是一个数据库表，可以理解为关系型数据库的一张表，而且可以直接理解为python中的同名概念

DataFrame是spark1.3.0版本提出来的(1.3.0以前叫SchemaRDD)，spark1.6.0版本又引入了DataSet的，但是在spark2.0版本中，DataFrame和DataSet合并为DataSet

DataFrame = Dataset[Row] ，在 the Scala API中, DataFrame 仅仅是一个 Dataset[Row]类型的别名

Dataset：强类型 typed case class DataFrame：弱类型 Row

DataFrame和DataSet是基于RDDs的，而且这三者之间可以通过简单的API调用进行无缝切换

二、运行环境

RDD： java/scala ==> jvm

python ==> python runtime

DataFrame: java/scala/python ==> Logic Plan(逻辑执行计划，不管什么语言效果都一样)

三、DataFrame和RDD互操作的两种方式：

1）反射：case class 前提：事先需要知道你的字段、字段类型

2）编程：Row 如果第一种情况不能满足你的要求（事先不知道列的属性）

3) 选型：优先考虑第一种

奥兰治的威廉

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。