RDD、DataFrame、DataSet对比与相互转换

最新推荐文章于 2022-12-11 19:45:56 发布

RayfunC

最新推荐文章于 2022-12-11 19:45:56 发布

阅读量870

点赞数

分类专栏： Spark 大数据框架文章标签： Spark RDD DataFrame DataSet 转换

本文链接：https://blog.csdn.net/a308601801/article/details/86703586

版权

本文详细对比了Spark中的RDD、DataFrame和DataSet，包括它们的共性和区别，并介绍了它们之间的转换方法。RDD主要用于Spark MLlib，不支持SparkSQL；DataFrame每一行类型固定为Row，支持SQL操作；DataSet提供了更丰富的类型信息，便于访问字段。转换方面，RDD与DataFrame或DataSet之间需要引入implicits，而DataFrame和DataSet可以直接相互转换。

摘要由CSDN通过智能技术生成

RDD (Spark1.0) —> Dataframe(Spark1.3) —> Dataset(Spark1.6)

三者的共性

1、RDD、DataFrame、Dataset 全都是 spark 平台下的分布式弹性数据集，为处理超大型数据提供便利

2、三者都有惰性机制，在进行创建、转换，如 map 方法时，不会立即执行，只有在遇到 Action 如 foreach 时，三者才会开始遍历运算。

3、三者都会根据 spark 的内存情况自动缓存运算，这样即使数据量很大，也不用担心会内存溢出

4、三者都有 partition 的概念

5、三者有许多共同的函数，如 filter，排序等

6、在对 DataFrame 和 Dataset 进行操作许多操作都需要这个包进行支持

import spark.implicits._

7、DataFrame 和 Dataset 均可使用模式匹配获取各个字段的值和类型

DataFrame:

testDF.map{
    case Row(col1:String,col2:Int)=>
     println(col1);println(col2)
     col1
    case _=>
     ""
}

Dataset:

cas

最低0.47元/天解锁文章

RayfunC

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
RDD、DataFrame、DataSet对比与相互转换

RDD (Spark1.0) —&gt; Dataframe(Spark1.3) —&gt; Dataset(Spark1.6) 三者的共性1、RDD、DataFrame、Dataset 全都是 spark 平台下的分布式弹性数据集，为处理超大型数据提供便利2、三者都有惰性机制，在进行创建、转换，如 map 方法时，不会立即执行，只有在遇到 Action 如 foreach 时，三...
复制链接

扫一扫

专栏目录