Spark----DataFrame和DataSet

快跑呀长颈鹿

已于 2023-04-12 16:04:13 修改

阅读量1k

点赞数 1

分类专栏： Spark 文章标签： spark 大数据 hadoop

于 2023-04-12 16:03:44 首次发布

本文链接：https://blog.csdn.net/weixin_43240150/article/details/130004481

版权

Spark 专栏收录该内容

12 篇文章 1 订阅

订阅专栏

Spark之DataFrame和DataSet

DataFrame

在 Spark 中，DataFrame 是一种以 RDD 为基础的分布式数据集，类似于传统数据库中的二维表格。DataFrame 与 RDD 的主要区别在于，前者带有 schema 元信息，即 DataFrame所表示的二维表数据集的每一列都带有名称和类型。这使得 Spark SQL 得以洞察更多的结构信息，从而对藏于 DataFrame 背后的数据源以及作用于 DataFrame 之上的变换进行了针对性的优化，最终达到大幅提升运行时效率的目标。反观 RDD，由于无从得知所存数据元素的具体内部结构，Spark Core 只能在 stage 层面进行简单、通用的流水线优化。
同时，与 Hive 类似，DataFrame 也支持嵌套数据类型（struct、array 和 map）。从 API 易用性的角度上看，DataFrame API 提供的是一套高层的关系操作，比函数式的 RDD API 要更加友好，门槛更低。
在这里插入图片描述
RDD[Person]虽然以 Person 为类型参数，但 Spark 框架本身不了解 Person 类的内部结构
DataFrame 却提供了详细的结构信息，使得 Spark SQL 可以清楚地知道该数据集中包含哪些列，每列的名称和类型各是什么
DataFrame 是为数据提供了 Schema 的视图。可以把它当做数据库中的一张表来对待DataFrame 也是懒执行的，但性能上比 RDD 要高，主要原因：优化的执行计划，即查询计划通过 Spark catalyst optimiser 进行优化。

DSL 语法

DataFrame 提供一个特定领域语言(domain-specific language, DSL)去管理结构化的数据。
可以在 Scala, Java, Python 和 R 中使用 DSL，使用 DSL 语法风格不必去创建临时视图了

创建DataFrame

val df: DataFrame = spark.read.json("datas/user.json")

查看DataFrame的Schema信息

df.printSchema()
df.show(false)

在这里插入图片描述

只查看列数据的6种方式

注意:涉及到运算的时候, 每列都必须使用$, 或者采用引号表达式：单引号+字段名

//    输出的6种方式
//在使用DataFrame时，如果涉及到转换操作，需要引入转换规则
    import spark.implicits._
    userDF.select('name,'age).show()
    userDF.select("name","age").show()
    userDF.select($"name",$"age").show()
    userDF.select(userDF("name"),userDF("age")).show()
//import org.apache.spark.sql.functions.{col, column}
    userDF.select(col("name"),col("age")).show()
    userDF.select(column("name"),column("age")).show()

按照“age”分区，查看数据条数

    val countDF: DataFrame = df.groupBy("age").count()
    countDF.printSchema()
    countDF.show()

在这里插入图片描述

增加列withColumn

countDF.withColumn("number",$"count".cast(StringType))

修改列名withColumnRenamed

countDF.withColumnRenamed("count","number")

RDD 转换为 DataFrame

如果需要RDD与 DF 或者 DS 之间互相操作
在IDEA中需要引入 import spark.implicits._
在黑窗口spark-shell中不需要引入，自动导入
这里的 spark 不是 Scala 中的包名，而是创建的 sparkSession 对象的变量名称，所以必须先创建 SparkSession 对象再导入。这里的 spark 对象不能使用 var 声明，因为 Scala 只支持val 修饰的对象的引入

    val rdd: RDD[(Int, String, Int)] = spark.sparkContext.makeRDD(List((1, "zhangsan", 30), (2, "lisi", 40)))
    val df: DataFrame = rdd.toDF("id", "name", "age")

在这里插入图片描述

DataFrame 转换为 RDD

    val rowRDD: RDD[Row] = df.rdd
    rowRDD.foreach(println)

在这里插入图片描述

转换图

在这里插入图片描述

DataSet

DataSet 是分布式数据集合。DataSet 是 Spark 1.6 中添加的一个新抽象，是 DataFrame的一个扩展。它提供了 RDD 的优势（强类型，使用强大的 lambda 函数的能力）以及 Spark SQL 优化执行引擎的优点。DataSet 也可以使用功能性的转换（操作 map，flatMap，filter等等）

DataSet 是 DataFrame API 的一个扩展，是 SparkSQL 最新的数据抽象
用户友好的 API 风格，既具有类型安全检查也具有 DataFrame 的查询优化特性
用样例类来对 DataSet 中定义数据的结构信息，样例类中每个属性的名称直接映射到DataSet 中的字段名称
DataSet 是强类型的。比如可以有 DataSet[Car]，DataSet[Person]
DataFrame 是 DataSet 的特列，DataFrame=DataSet[Row] ，所以可以通过 as 方法将DataFrame 转换为 DataSet。Row 是一个类型，跟 Car、Person 这些的类型一样，所有的表结构信息都用 Row 来表示。获取数据时需要指定顺序

RDD 转换为 DataSet

SparkSQL能够自动将包含case类的RDD转换成DataSet，case类定义了table的结构，case类属性通过反射编程了表的列名。case类可以包含如Seq或者Array等复杂的结构

println("----------rdd->ds-------")
    val ds1: Dataset[User] = rdd.map {
      case (id, name, age) => {
        User(id, name, age)
      }
    }.toDS()
    ds1.printSchema()
    ds.show()

在这里插入图片描述

DataSet 转换为 RDD

DataSet也是对RDD的封装，所以可以直接获得内部的RDD

    println("----------ds->rdd-------")
    val userRDD: RDD[User] = ds1.rdd
    userRDD.foreach(println)

在这里插入图片描述

DataFrame 和 DataSet 转换

DataFrame => DataSet：as[样例类]
DataSet => DataFrame：toDF

    //DataFrame<=>DataSet
    //样例类
    println("===========================")
    val ds: Dataset[User] = df.as[User]
    ds.printSchema()
    ds.show()
    val df1: DataFrame = ds.toDF()
    df1.printSchema()
    df1.show()

在这里插入图片描述

RDD、DataFrame、DataSet 三者的关系

三者的共性

都是spark平台下的分布式弹性数据集，为处理超大型数据提供便利
都有惰性机制，在创建、转换时，不会立即执行。只有在遇到行动算子时，才会开始运行
有很多共同的函数
DataFrame 和 DataSet 许多操作都需要导入包：import spark.implicits._
都会根据Spark的内存情况自动缓存运算，即使数据量很大，也不用担心内存溢出
都有partition的概念
DataFrame 和 DataSet 都可以使用匹配模式获取各个字段的值和类型

三者的区别

RDD

RDD一般和spark mllib同时使用
RDD不支持sparkSQL操作

DataFrame

RDD和DataFrame不同，DataFrame每一行的类型固定为Row，每一列的值无法直接访问，只有通过解析才能获取各个字段的值
DataFrame 和 DataSet 一般捕鱼spark mllib 同时使用
DataFrame 和 DataSet都支持SparkSQL操作，如select，groupby等。同时也能注册临时表/视窗，进行sql语句操作
DataFrame 和 DataSet支持一些方便的保存方式，比如保存成csv，可以带上表头

DataSet

DataFrame 和 DataSet拥有完全相同的成员函数，区别只是每一行的数据类型不同。DataFrame其实就是DataSet的一个特例
DataFrame 也可以叫 DataSet[Row]，每一行的类型是Row

三者的互相转换

在这里插入图片描述

//样例类
case class User(id:Int,name:String,age:Int)
// RDD <=> DataFrame
val rdd = spark.sparkContext.makeRDD(List(1,"zhangsan",30),(2,"lisi",40))
val df: DataFrame = rdd.toDF("id","name","age")
val rowRDD:RDD[Row] = df.rdd
 
// DataFrame <=> DataFrame
val ds:Dataset[User] = df.as[User]
val df1:DataFrame = ds.toDF()
 
// RDD <=> DataSet
rdd.map {
    case (id, name, age) =>{
        User(id, name, age)
    }
}
val userRDD:RAA[User] = ds1.rdd