一.概述
Dataset是一个分布式的数据集,并且是spark1.6版本的新接口,有点就是强类型,支持lambda表达式,还提供了SparkSQL优化的执行引擎的优点.
解释:
针对SQL而言:
seletc name from person; 写错select 但是编译(compile)还是过的,运行时出错
针对DF而言:
df.seletc("name") select 写错编译(compile)直接就报错了
df.select("nname") 属性名写错,但是编译(compile)是好的,只是在运行的时候才会报错
针对DS而言:
ds.map(line => line.itemidd) 里面的itemid写错直接编译(compile)就会报错
二.示例演示
import org.apache.spark.sql.SparkSession
object DataSetApp {
def main(args: Array[String]){
val spark = SparkSession.builder().appName("DataSetApp").master("local[2]").getOrCreate()
import spark.implicits._
// csv 方法返回的是DataFrame类型的数据 第一个option是解析头文件
val df = spark.read.option(“header”,“true”).option(“interSchema”,“true”).csv(“sales.csv”)
df.show()
//df转换为ds,但是要指定类型,因此传入了Sales
val ds = df.as[Sales]
//输出itemId哪一行数据的内容
ds.map(line => line.itemId).show()
spark.stop()
}
case class Sales(transactionId:String,customerId:String,itemId:String,amountPaid:String)
}
三.常见错误
Unable to find encoder for type stored in a Dataset. Primitive types (Int, String, etc) and Product types (case classes) are supported by importing spark.implicits._ Support for serializing other types will be added in future releases.
解决方法就是导入隐式函数即可:
import spark.implicits._
详细资料参考 SparkSQL之Dataset