七.SparkSQL之Dataset实战演练

最新推荐文章于 2022-08-30 16:59:14 发布

飞翔的小宇宙

最新推荐文章于 2022-08-30 16:59:14 发布

阅读量232

点赞数 1

分类专栏： Spark SQL 文章标签： SparkSQL之Dataset概述和应用

本文链接：https://blog.csdn.net/ligh_sqh/article/details/83014366

版权

Spark SQL 专栏收录该内容

15 篇文章 1 订阅

订阅专栏

一.概述
Dataset是一个分布式的数据集,并且是spark1.6版本的新接口,有点就是强类型,支持lambda表达式,还提供了SparkSQL优化的执行引擎的优点.
在这里插入图片描述
解释:

针对SQL而言:
    seletc name from person;  写错select 但是编译(compile)还是过的,运行时出错

针对DF而言:
    df.seletc("name") select 写错编译(compile)直接就报错了
    df.select("nname") 属性名写错,但是编译(compile)是好的,只是在运行的时候才会报错

针对DS而言:
    ds.map(line => line.itemidd)  里面的itemid写错直接编译(compile)就会报错

二.示例演示

 import org.apache.spark.sql.SparkSession
object DataSetApp {
  def main(args: Array[String]){
  val spark = SparkSession.builder().appName("DataSetApp").master("local[2]").getOrCreate()
  import spark.implicits._
  // csv 方法返回的是DataFrame类型的数据 第一个option是解析头文件

val df = spark.read.option(“header”,“true”).option(“interSchema”,“true”).csv(“sales.csv”)
df.show()

//df转换为ds,但是要指定类型,因此传入了Sales
val ds = df.as[Sales]
//输出itemId哪一行数据的内容
ds.map(line => line.itemId).show()

  spark.stop()

}
case class Sales(transactionId:String,customerId:String,itemId:String,amountPaid:String)
}

三.常见错误
Unable to find encoder for type stored in a Dataset. Primitive types (Int, String, etc) and Product types (case classes) are supported by importing spark.implicits._ Support for serializing other types will be added in future releases.
解决方法就是导入隐式函数即可: