Spark RDD转换成DataFrame的两种方式

本文介绍了Spark中使用反射机制推断Schema将RDD转换为DataFrame的方法,以及通过编程方式定义Schema的步骤。案例演示了如何将学生信息RDD转换为DataFrame,并展示了DataFrame的RDD转换过程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

  • spark官方提供了两种方法实现从RDD转换到DataFrame。
  • 第一种方法是利用反射机制来推断包含特定类型对象的Schema,这种方式适用于对已知的数据结构的RDD转换;
  •  第二种方法通过编程接口构造一个 Schema ,并将其应用在已知的RDD数据中。

一、反射机制推断Schema

实现反射机制Schema需要定义一个case class样例类,定义字段和属性,样例类的参数名称会被反射机制利用作为列名


object RddToDataFrameByReflect {
  //定义一个student样例类
  case class Student(name:String,age:Int)

  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setMaster("local")
    //创建sparkSession对象
    val sparkSession = SparkSession.builder().appName("RddToDataFrameByReflect").config(conf).getOrCreate()
    //获取sparkContext
    val sc = sparkSession.sparkContext
    //设置打印的日志等级
    sc.setLogLevel("WARN")

    val dataRDD = sc.parallelize(Array(("java", 18), ("tom", 20), ("libaowen", 30)))
    //基于反射直接把包含student对象的dataRDD转成DataFrame
    //需要导入隐式转换
    import sparkSession.implicits._
    val stuDf = dataRDD.map(tup => Student(tup._1, tup._2)).toDF()
    //将dataFrame注册成表
    stuDf.createOrReplaceTempView("student")
    val resDF = sparkSession.sql("select name,age from student")
    //将DataFrame转换成RDD
    val resRDD = resDF.rdd
    resRDD.map(row=>Student(row.getAs[String]("name"),row.getAs("age")))
      .collect().foreach(println(_))

    sparkSession.stop()
  }


}

1、定义的Student的case类,这是因为在利用反射机制推断RDD模式时,首先需要定义一个case类,spark sql可以自动将包含case类的rdd隐式转换成dataFrame,case类定义了table的结构,case类的属性通过反射机制变成了表的列名

2、dataRDD.map(tup => Student(tup._1, tup._2)).toDF()方法是把RDD转换成dataFrame,在调用toDF()方法之前需要手动添加spark.implicits._包

3、val resRDD = resDF.rdd  将DataFrame转换成RDD

二、编程方式定义schema

1、创建一个row对象结构的rdd

2、基于structType类创建schema

3、通过sparkSession提供的createDataFrame()方法拼接schema


  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setMaster("local")
    //创建sparkSession对象
    val sparkSession = 
    SparkSession.builder().appName("RddToDataFrameByReflect").config(conf).getOrCreate()
    //获取sparkContext
    val sc = sparkSession.sparkContext
    //设置打印的日志等级
    sc.setLogLevel("WARN")
    val dataRDD = sc.parallelize(Array(("java", 18), ("tom", 20), ("libaowen", 30)))

    //组装rowRDD
    val rowRDD = dataRDD.map(tup => Row(tup._1, tup._2))
    //指定元数据信息
    val schema = StructType(Array(
      StructField("name", StringType, true),
      StructField("age", IntegerType, true)
    )) 
    val stuDf = sparkSession.createDataFrame(rowRDD, schema)

    stuDf.createOrReplaceTempView("student")
    val resDF = sparkSession.sql("select name,age from student")
    //将DataFrame转换成RDD
    val resRDD = resDF.rdd

    resRDD.map(row=>Student(row.getAs[String]("name"),row.getAs("age")))
      .collect().foreach(println(_))
    sparkSession.stop()

  }

结果:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值