SparkSQL-数据模型DataFrame&DataSet

数据模型DataFrame

1. DataFrame是什么

        在 Spark 中,DataFrame 是一种以 RDD 为基础的分布式数据集,类似于传统数据库中的二维表格。DataFrame 与 RDD 的主要区别在于,前者带有 schema 元信息,即 DataFrame 所表示的二维表数据集的每一列都带有名称和类型。这使得 Spark SQL 得以洞察更多的结构信息,从而对藏于 DataFrame 背后的数据源以及作用于 DataFrame 之上的变换进行了针对性的优化,最终达到大幅提升运行时效率的目标。反观 RDD,由于无从得知所存数据元素的具体内部结构,Spark Core 只能在 stage 层面进行简单、通用的流水线优化。

        同时,与Hive 类似,DataFrame 也支持嵌套数据类型(struct、array 和 map)。从 API 易用性的角度上看,DataFrame API 提供的是一套高层的关系操作,比函数式的 RDD API 要更加友好,门槛更低。

 DataFrame 和 RDD 的区别

2. DataSet是什么

DataSet 是分布式数据集合。DataSet 是Spark 1.6 中添加的一个新抽象,是DataFrame的一个扩展。它提供了RDD 的优势(强类型,使用强大的 lambda 函数的能力)以及SparkSQL 优化执行引擎的优点。DataSet 也可以使用功能性的转换(操作 map,flatMap,filter等等)。

3. SQL语法

(1)读取 JSON 文件创建DataFrame:

(2)对 DataFrame 创建一个临时表:

scala> val sqlDF = spark.sql("SELECT * FROM people")

(3)通过 SQL 语句实现查询全表:

scala> val sqlDF = spark.sql("SELECT * FROM people")

(4)结果展示:

 注意:普通临时表是 Session 范围内的,如果想应用范围内有效,可以使用全局临时表。使用全局临时表时需要全路径访问,如:global_temp.people

(5)对于DataFrame 创建一个全局表:

scala> df.createGlobalTempView("people")

(6)通过 SQL 语句实现查询全表:

4. DSL语法

        DataFrame 提供一个特定领域语言(domain-specific language, DSL)去管理结构化的数据。可以在 Scala, Java, Python 和 R 中使用 DSL,使用 DSL 语法风格不必去创建临时视图了。

(1)创建一个DataFrame:

scala> val df = spark.read.json("data/user.json")

(2)查看DataFrame 的 Schema 信息:

scala> df.printSchema

(3)只查看"username"列数据:

 (4)查看"username"列数据以及"age+1"数据:

scala> df.select($"username",$"age" + 1).show

scala> df.select('username, 'age + 1).show()

 (5)查看"age"大于"30"的数据:

scala> df.filter($"age">30).show

5. RDD转换为DataFrame

(1)RDD——>DataFrame:scala> idRDD.toDF("id").show

(2)DataFrame——>RDD:scala> val rdd = df.rdd

6. DataSet

 是具有强类型的数据集合,需要提供对应的类型信息。

(1)RDD——>DataSet:

scala> sc.makeRDD(List(("zhangsan",30), ("lisi",49))).map(t=>User(t._1, t._2)).toDS

(2)DataSet——>RDD

scala> val rdd = res11.rdd

(3)DataFrame——>DataSet

scala> val ds = df.as[User]

(4)DataSet——>DataSet

scala> val df = ds.toDF

三者的互相转换

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值