0803-SparkSQL

SparkSQL是Spark的模块,提供DataFrame和DataSet编程抽象,具备优化的执行计划和高效率。DataFrame类似传统数据库表格,记录数据结构,支持SQL和DSL操作。DataSet是强类型的数据表对象。SparkSession整合了SQLContext和HiveContext的功能。DataFrame可从Spark源、RDD和Hive Table创建。转换操作包括RDD、DataFrame和DataSet间的相互转换,以及UDF和UDAF的使用。SparkSQL支持多种数据源,如JSON、Parquet和JDBC,并能与HIVE集成。
摘要由CSDN通过智能技术生成

第一章 SparkSQL 概述

1.1 什么是SparkSQL

Spark SQL是Spark用来处理结构化数据的一个模块,它提供了2个编程抽象:DataFrameDataSet,并且作为分布式SQL查询引擎的作用。
Spark SQL转换成RDD,然后提交到集群执行,执行效率非常快!

1.2 SparkSQL特点

1.3 DataFrame

与RDD类似,DataFrame也是一个分布式数据容器。然而DataFrame更像传统数据库的二维表格,除了数据以外,还记录数据的结构信息,即schema(表头)。同时,与Hive类似,DataFrame也支持嵌套数据类型(struct、array和map)。从API易用性的角度上看,DataFrame API提供的是一套高层的关系操作,比函数式的RDD API要更加友好,门槛更低。

在这里插入图片描述

上图直观地体现了DataFrame和RDD的区别。左侧的RDD[Person]虽然以Person为类型参数,但Spark框架本身不了解Person类的内部结构。而右侧的DataFrame却提供了详细的结构信息,使得Spark SQL可以清楚地知道该数据集中包含哪些列,每列的名称和类型各是什么。DataFrame是为数据提供了Schema的视图。可以把它当做数据库中的一张表来对待,DataFrame也是懒执行的。

性能上比RDD要高,主要原因:
优化的执行计划:查询计划通过Spark catalyst optimiser进行优化。

1.4 DataSet

  1. 可以理解为表对象
  2. 样例类被用来在Dataset中定义数据的结构信息,样例类中每个属性的名称直接映射到DataSet中的字段名称。
  3. Dataframe是Dataset的特列,DataFrame=Dataset[Row] ,所以可以通过as方法将Dataframe转换为Dataset。Row是一个类型,跟Car、Person这些的类型一样,所有的表结构信息我都用Row来表示。
  4. DataSet是强类型的。比如可以有Dataset[Car],Dataset[Person].
  5. DataFrame只是知道字段,但是不知道字段的类型,所以在执行这些操作的时候是没办法在编译的时候检查是否类型失败的,比如你可以对一个String进行减法操作,在执行的时候才报错,而DataSet不仅仅知道字段,而且知道字段类型,所以有更严格的错误检查。就跟JSON对象和类对象之间的类比。

在这里插入图片描述

第二章 SparkSQL 编程

2.1 SparkSession

在老的版本中,SparkSQL提供两种SQL查询起始点:一个叫SQLContext,用于Spark自己提供的SQL查询;一个叫HiveContext,用于连接Hive的查询。
SparkSession是Spark最新的SQL查询起始点,实质上是SQLContext和HiveContext的组合,所以在SQLContext和HiveContext上可用的API在SparkSession上同样是可以使用的。SparkSession内部封装了sparkContext,所以计算实际上是由sparkContext完成的

        // SparkSQL的新入口 SparkSession
        val session: SparkSession = SparkSession.builder()
            .appName("Demo01_SparkSQLHelloWorld")
            .master("local[*]")
            .getOrCreate()

2.2 DataFrame

2.2.1 创建

在Spark SQL中SparkSession是创建DataFrame和执行SQL的入口,创建DataFrame有三种方式:

  1. 通过Spark的数据源进行创建;
  2. 从一个存在的RDD进行转换;
  3. 还可以从Hive Table进行查询返回。
2.2.1.1 从Spark数据源进行创建
  1. 查看Spark数据源进行创建的文件格式
scala> spark.read.
csv   format   jdbc   json   load   option   options   orc   parquet   schema   table   text   textFile
  1. 读取json文件创建DataFrame
scala> val df = spark.read.json("/opt/module/spark/people.json")
df: org.apache.spark.sql.DataFrame = [age: bigint, name: string]
  1. 展示结果
scala> df.show
+----+-------+
| age|   name|
+----+-------+
|null|Michael|
|  30|   Andy|
|  19| Justin|
+----+-------+
2.2.1.2 从RDD进行转换
2.2.1.3 从HIVE Table进行查询返回

2.2.2 SQL语法风格

  1. 创建一个DataFrame
scala> val df = spark.read.json("/opt/module/spark/people.json")
df: org.apache.spark.sql.DataFrame = [age: bigint, name: string]
  1. 对DataFrame创建一个临时表
scala> df.createOrReplaceTempView("people")
  1. 通过SQL语句实现查询全表
scala> val sqlDF = spark.sql("SELECT * FROM people")
sqlDF: org.apache.spark.sql.DataFrame = [age: bigint, name: string]
  1. 结果展示
scala> sqlDF.show
+----+-------+
| age|   name|
+----+-------+
|null|Michael|
|  30|   Andy|
|  19| Justin|
+----+-------+

2.2.3 DSL语法风格

  1. 创建一个DateFrame
scala> spark.read.
csv   format   jdbc   json   load   option   options   orc   parquet   schema   table   text   textFile
  1. 查看DataFrame的Schema信息
scala> df.printSchema
root
 |-- age: long (nullable = true)
 |-- name: string (nullable = true)
  1. 只查看”name”列数据
scala> df.select("name").show()
+-------+
|   name|
+-------+
|Michael|
|   Andy|
| Justin|
+-------+
  1. 查看”name”列数据以及”age+1”数据
scala> df.select($"name", $"age" + 1).show()
+-------+---------+
|   name|(age + 1)|
+-------+---------+
|Michael|     null|
|   Andy|       31|
| Justin|       20|
+-------+---------+
  1. 查看”age”大于”21”的数据
scala> df.filter($"age" > 21).show()
+---+----+
|age|name|
+---+----+
| 30|Andy|
+---+----+
  1. 按照”age”分组,查看数据条数
scala> df.groupBy("age").count().show()
+----+-----+
| age|count|
+----+-----+
|  19|     1|
|null|     1|
|  30|     1|
+----+-----+

2.3 DataSet

2.3.1 创建

2.3.1.1 由样例类创建
  1. 创建一个样例类
scala> case class Person(name: String, age: Long)
defined class Person
  1. 创建DataSet
scala> val caseClassDS = Seq(Person("Andy", 32)).toDS()
caseClassDS: org.apache.spark.sql.Dataset[Person] = [name: string, age: bigint]
  • 对比DataFrame和DataSet
df: org.apache.spark.sql.DataFrame = [name: string, age: bigint]
ds: org.apac
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值