RDD、DataFrame、DataSet的生成与互相转换

最新推荐文章于 2023-11-28 14:33:51 发布

b1gx

最新推荐文章于 2023-11-28 14:33:51 发布

阅读量635

点赞数 1

分类专栏： spark 文章标签： spark RDD DataFrame DataSet

本文链接：https://blog.csdn.net/qq_40727267/article/details/107501562

版权

spark 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

文章目录

RDD的生成
DataFrame的生成
DataSet的生成
RDD和DataFrame的转换
- RDD转DataFrame
- DataFrame转RDD
RDD和DataSet的转换
- RDD转DataSet
- DataSet转RDD
DataFrame与DataSet的转换
- DataFrame转DataSet
- DataSet转DataFrame

RDD的生成

使用parallelize/makeRDD算子从集合转换而来，常用于测试
使用类似textFile()这样的算子从文件系统读取数据形成RDD
使用transformation算子转换而来

DataFrame的生成

直接读取文件系统数据形成

spark.read.format.load()

RDD转换而来
DataSet转换而来

DataSet的生成

直接读取文件系统数据形成

val ds = spark.read.textFile()

DataFrame转换而来
RDD转换而来

RDD和DataFrame的转换

RDD转DataFrame

使用toDF的方式（需要导入隐式转换 import spark.implicits._）

第一种写法
直接将字段名称传入toDF中

peopleRDD.map(x => {
    (x._1, x,_2)
}).toDF("name", "age")

第二种写法
借助case class使用反射

peopleRDD.map(x => {
    Person(x._1, x._2)
})

case class Person(name: String, age: Int)

构造Schema

val schema = StructType(Array(
  StructField("name", StringType),
  StructField("age", IntegerType)
))

val rowRDD = peopleRDD.map(_.split(","))
  .map(attributes => Row(attributes(0), attributes(1).trim.toInt))

val peopleDF = spark.createDataFrame(rowRDD, schema)

DataFrame转RDD

personDF.rdd.map(x => {
  val name = x.getString(0)
  val age = x.getInt(1)
  (name, age)
})

RDD和DataSet的转换

RDD转DataSet

使用toDS()算子，需要导入隐式转换
schema参考RDD转DataFrame的方法（schema信息不可以通过toDS直接传入）
使用spark.createDataSet(rdd)的方式

DataSet转RDD

ds.rdd

DataFrame与DataSet的转换

DataFrame转DataSet

df.as[xxx]

case class xxx()

DataSet转DataFrame

ds.toDF()

b1gx

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录