RDD，DataFrame，DataSet之间进行互相转换!!（非常重要）

最新推荐文章于 2022-03-04 09:28:35 发布

reedom1991

最新推荐文章于 2022-03-04 09:28:35 发布

阅读量2.2k

点赞数

分类专栏： spark 文章标签： Spark

本文链接：https://blog.csdn.net/reedom1991/article/details/89955306

版权

本文详细介绍了如何在Spark中进行RDD、DataFrame和DataSet之间的相互转换，包括直接转换和通过创建schema、使用case class等方式。通过实例展示了各种转换方法，如RDD到DataFrame的转换，DataFrame到RDD的转换，以及RDD到DataSet和DataSet到RDD的转换等。

摘要由CSDN通过智能技术生成

转自https://blog.csdn.net/qq_36235275/article/details/82502352

要求运用的滚瓜烂熟

将RDD，DataFrame，DataSet之间进行互相转换

RDD -》 DataFrame

直接手动转换

scala> val people = spark.read.json("/opt/apps/Spark/spark-2.2.2-bin-hadoop2.7/examples/src/main/resources/people.json")
people: org.apache.spark.sql.DataFrame = [age: bigint, name: string]
scala> val people1 = sc.textFile("/opt/apps/Spark/spark-2.2.2-bin-hadoop2.7/examples/src/main/resources/people.txt")
people1: org.apache.spark.rdd.RDD[String] = /opt/apps/Spark/spark-2.2.2-bin-hadoop2.7/examples/src/main/resources/people.txt MapPartitionsRDD[18] at textFile at <console>:24
scala> val peopleSplit = people1.map{x => val strs = x.split(",");(strs(0),strs(1).trim.toInt)}
peopleSplit: org.apache.spark.rdd.RDD[(String, Int)] = MapParti

最低0.47元/天解锁文章

reedom1991

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
RDD，DataFrame，DataSet之间进行互相转换!!（非常重要）

转自https://blog.csdn.net/qq_36235275/article/details/82502352要求运用的滚瓜烂熟将RDD，DataFrame，DataSet之间进行互相转换RDD -》 DataFrame直接手动转换scala> val people = spark.read.json("/opt/apps/Spark/spark-2.2.2-b...
复制链接

扫一扫