数据模型DataFrame
1. DataFrame是什么
在 Spark 中,DataFrame 是一种以 RDD 为基础的分布式数据集,类似于传统数据库中的二维表格。DataFrame 与 RDD 的主要区别在于,前者带有 schema 元信息,即 DataFrame 所表示的二维表数据集的每一列都带有名称和类型。这使得 Spark SQL 得以洞察更多的结构信息,从而对藏于 DataFrame 背后的数据源以及作用于 DataFrame 之上的变换进行了针对性的优化,最终达到大幅提升运行时效率的目标。反观 RDD,由于无从得知所存数据元素的具体内部结构,Spark Core 只能在 stage 层面进行简单、通用的流水线优化。
同时,与Hive 类似,DataFrame 也支持嵌套数据类型(struct、array 和 map)。从 API 易用性的角度上看,DataFrame API 提供的是一套高层的关系操作,比函数式的 RDD API 要更加友好,门槛更低。
DataFrame 和 RDD 的区别
2. DataSet是什么
DataSet 是分布式数据集合。DataSet 是Spark 1.6 中添加的一个新抽象,是DataFrame的一个扩展。它提供了RDD 的优势(强类型,使用强大的 lambda 函数的能力)以及SparkSQL 优化执行引擎的优点。DataSet 也可以使用功能性的转换(操作 map,flatMap,filter等等)。
3. SQL语法
(1)读取 JSON 文件创建DataFrame:
(2)对 DataFrame 创建一个临时表:
scala> val sqlDF = spark.sql("SELECT * FROM people")
(3)通过 SQL 语句实现查询全表:
scala> val sqlDF = spark.sql("SELECT * FROM people")
(4)结果展示:
注意:普通临时表是 Session 范围内的,如果想应用范围内有效,可以使用全局临时表。使用全局临时表时需要全路径访问,如:global_temp.people
(5)对于DataFrame 创建一个全局表:
scala> df.createGlobalTempView("people")
(6)通过 SQL 语句实现查询全表:
4. DSL语法
DataFrame 提供一个特定领域语言(domain-specific language, DSL)去管理结构化的数据。可以在 Scala, Java, Python 和 R 中使用 DSL,使用 DSL 语法风格不必去创建临时视图了。
(1)创建一个DataFrame:
scala> val df = spark.read.json("data/user.json")
(2)查看DataFrame 的 Schema 信息:
scala> df.printSchema
(3)只查看"username"列数据:
(4)查看"username"列数据以及"age+1"数据:
scala> df.select($"username",$"age" + 1).show
scala> df.select('username, 'age + 1).show()
(5)查看"age"大于"30"的数据:
scala> df.filter($"age">30).show
5. RDD转换为DataFrame
(1)RDD——>DataFrame:scala> idRDD.toDF("id").show
(2)DataFrame——>RDD:scala> val rdd = df.rdd
6. DataSet
是具有强类型的数据集合,需要提供对应的类型信息。
(1)RDD——>DataSet:
scala> sc.makeRDD(List(("zhangsan",30), ("lisi",49))).map(t=>User(t._1, t._2)).toDS
(2)DataSet——>RDD
scala> val rdd = res11.rdd
(3)DataFrame——>DataSet
scala> val ds = df.as[User]
(4)DataSet——>DataSet
scala> val df = ds.toDF
三者的互相转换