DataSet介绍
使用alt +组合键可以查看相关类型
什么是DataSet
DataSet是分布式的数据集合,Dataset提供了强类型支持,也是在RDD的每行数据加了类型约束。DataSet是在Spark1.6中添加的新的接口。它集中了RDD的优点(强类型和可以用强大lambda函数)以及使用了Spark SQL优化的执行引擎。DataSet可以通过JVM的对象进行构建,可以用函数式的转换(map/flatmap/filter)进行多种操作。
DataFrame、DataSet、RDD的区别
假设RDD中的两行数据长这样:
那么DataFrame中的数据长这样:
那么Dataset中的数据长这样:
或者长这样(每行数据是个Object):
DataSet包含了DataFrame的功能,Spark2.0中两者统一,DataFrame表示为DataSet[Row],即DataSet的子集。
(1)DataSet可以在编译时检查类型
相比DataFrame,Dataset提供了编译时类型检查,对于分布式程序来讲,提交一次作业太费劲了(要编译、打包、上传、运行),到提交到集群运行时才发现错误,这会浪费大量的时间,这也是引入Dataset的一个重要原因。
DataFrame与DataSet互相转换
DataFrame和DataSet可以相互转化。
- DataFrame转为 DataSet
df.as[ElementType] 这样可以把DataFrame转化为DataSet。
- DataSet转为DataFrame
ds.toDF() 这样可以把DataSet转化为DataFrame。
创建DataSet
- 通过spark.createDataset创建
2.通toDS方法生成DataSet
3.通过DataFrame转化生成(DataFrame:使用as[类型]转换为DataSet)
更多DataSet操作API地址:
http://spark.apache.org/docs/2.0.2/api/scala/index.html#org.apache.spark.sql.Dataset
#创建DataSet
case class Data(a: Int, b: String)
val ds = Seq(Data(1, "one"), Data(2, "two")).toDS()
ds.collect()
ds.show()
#创建DataSet
case class Person(name: String, zip: Long)
val df = sqlContext.read.json(sc.parallelize("""{"zip": 94709, "name": "Michael"}""" :: Nil))
df.as[Person].collect()
df.as[Person].show()
#DataSet的WordCount
import org.apache.spark.sql.functions._
val ds = sqlContext.read.text("hdfs://bsr.cn:9000/wc").as[String]
val result = ds.flatMap(_.split(" "))toDF().groupBy($"value" as “word”).agg(count("*") as "numOccurances").orderBy($"numOccurances" desc)
RDD/Dataset/DataFrame之间的相互转化
1. Rdd->Dataset
Rdd.toDS
2.Rdd->DataFrame
Val df=spark.read.json(rdd)
3.Dataset->RDD
Val df=ds.rdd
4. Dataset-> DataFrame