Spark：SQL（一）

最新推荐文章于 2022-08-15 21:17:46 发布

多么哇塞的陈哇塞

最新推荐文章于 2022-08-15 21:17:46 发布

阅读量519

点赞数 1

文章标签： spark 大数据

本文链接：https://blog.csdn.net/m0_57498038/article/details/119112063

版权

13：SaveMode与Shuffle分区数

01：上篇回顾

https://blog.csdn.net/m0_57498038/article/details/119110609

Spark读写Hbase如何实现？
- 方式：调用Hadoop的InputFormat和OutputFormat
- 方法
  - 读Hbase：newAPIHadoopRDD【TableInputFormat】
    - 返回值
    - K：ImmutableBytesWritable：Rowkey
    - V：Result：这个Rowkey的数据
    - 注意：特殊读取，需要实现单独配置序列化方式
  - 写Hbase：saveAsNewAPIHadoopFile【TableOutputFormat】
    - 要求：RDD中的数据类型必须为二元组类型，Value必须为Put类型
共享变量有几种？分别有什么功能？
- 广播变量：将Driver中的一个对象发送给每个Executor
  - 避免每个Task都需要使用这个变量，都向Driver请求一份
  - 做了广播变量以后，每个Task只要从Executor获取变量即可
  - 减少了网络IO传输，提高性能
  - 使用
```
val broad = sc.broadcast(变量)
//取出
broad.value
```
- 累加器：实现分布式计数
  - 每个分区内部先计数，再将计数的结果进行分区间的合并
什么是宽依赖和窄依赖，有什么区别？
- 功能：用于描述父RDD的数据如何分配给子RDD
- 宽依赖：SHuffle依赖，肯定会产生shuffle
  - 父RDD的一个分区的数据给了子RDD的多个分区
  - 一对多
- 窄依赖：不会产生shuffle
  - 父RDD的一个分区的数据给了子RDD的一个分区
  - 一对一
SparkSQL的功能、特点和应用场景是什么？
- 功能：SparkSQL是Spark中专门处理结构化数据的模块
- 特点
  - 集成的
    - SQL：主要实现类SQL的开发
    - DSL：结合了函数式编程和SQL的特点：将SQL关键字变成了函数：DSL函数 + RDD函数
  - 数据源接口非常丰富：封装了常用的所有数据源的接口：文件/数据库
  - 与Hive的集成：所有Hive所有的开发方式，SparkSQL是全部兼容
  - 标准的数据接口：SQL、JAR、JDBC
- 应用
  - 离线计算：代替SparkCore：SQL + DSL，访问Hive数据仓库中的数据进行处理
  - 实时计算：StructStreaming，用Spark实现实时计算
SparkSQL的代码如何开发？
- IDEA中开发：类似于开发SparkCore中
- 驱动接口和数据抽象
  - SparkCore：SparkContext + RDD
    - 将所有数据读取进来以后，全部放入一个分布式集合【数据】
    - 调用集合函数来进行处理
```
rdd.filter(line => line.split("\t")[2] != null)
    .map(line => {
        val arr = line.split("\t")
        (arr(0),arr(1))
    })
```
  - SparkSQL：SparkSession + DataSet / DataFrame
    - 将所有数据读取进来以后，全部放入一个分布式的表【数据 + Schema】
    - 调用DSL函数或者SQL语句来对表的数据进行处理
```
ds.where($"thrid" is not null)
    .select($"first",$"second")
```
- 代码开发
```
//step1：先构建SparkSession对象
val spark = SparkSession
    .builer
    .master
    .appName
    .config
    .getOrCreate()
    
//step2：实现处理逻辑

//step3：释放资源
spark.stop
```
- DSL：函数式编程
  - 与RDD的编程方式基本类似
  - 区别：调用函数不一样
    - DSL函数：SQL关键字函数：select、where、groupBy、orderBy、limit、agg
    - +
    - RDD函数：结构化数据处理的函数：map、flatMap、filter
- SQL：基于SQL进行处理
  - step1：将DS或者DF注册为视图
  - step2：使用SQL对视图进行处理
疑问自答
```
//过滤空行 
.filter(line => line != null && line.trim.length > 0) 
```
- 这段代码前半段不是已经过滤了值为null的空行了吗？加个长度不为0的行这样不是会重复过滤吗，是有什么不一样吗？
- line != null：过滤null
```
String = null : line != null
```
- line.trim.length > 0：过滤空行
```
String = “” : line.trim.length > 0
```
- length(word) > 0：过滤空白符
```
两个单词之间有两个分隔符：会出现一个空的元素
```
- StringUtils.isNotBlank（）：专门用于过滤空白符的方法

02：学习目标

==Spark中数据抽象==
- 什么是DataFrame和DataSet？
- 与RDD的区别是什么？
- 怎么实现三者之间的互相转换？
SparkSQL的应用案例
- 练习DSL和SQL的开发
- 保存模式：SaveMode
- Shuffle分区问题
SparkSQL支持的数据源：Source
- 文本：Parquet、CSV、JSON……
- JDBC：MySQL

03：数据结构抽象：设计

目标：掌握SparkCore与SparkSQL是数据抽象设计
实施
- SparkCore的设计
  - 设计：将所有数据放入分布式数据集合，调用集合的转换函数来实现处理，返回新的结果集合
  - 实现
    - 数据抽象：RDD【分布式集合：数据】
    - 数据驱动：SparkContext
  - 场景：使用函数式编程对各种数据源的数据进行分布式的计算处理
  - 问题：RDD中只有数据，没有数据的Schema，SparkCore处理结构化数据不如SQL更方便直观
- SparkSQL的设计
  - 设计：将所有数据放入分布式数据表中，使用SQL或者DSL函数来实现处理，返回新的数据表
  - 实现
    - 数据抽象：DataSet / DataFrame 【分布式表：数据 + Schema】
    - 数据驱动：SparkSession
  - 场景：使用SQL或者DSL对结构化数据源的数据进行分布式的计算处理
小结
- 掌握SparkCore与SparkSQL是数据抽象设计

04：数据结构抽象：区别与联系

目标：掌握RDD、DataFrame、DataSet三者之间的区别于联系
路径
- step1：数据抽象的设计
- step2：关系
- step3：测试
实施
- 数据抽象的设计
  - RDD：SparkCore中的分布式集合，用于存储数据
  - DataFrame：早期的SparkSQL中分布式表的设计
  - DataSet：后期SparkSQL中分布式表的设计
    - 1.6版本开始引用，保留了DataFrame
    - 2.0版本开始，合并了为DataSet，DataFrame作为DataSet的一种特殊形式
- 关系
  - RDD：数据，支持泛型
    - RDD【Int】、RDD【String】 =》 RDD【T】 =》类似于List【T】
  - DF：数据 + Schema，不支持泛型
    - DF【Row】：不可变
  - DS：数据 + Schema，支持泛型
    - DS【Int】、DS【String】 =》 DS【T】 =》类似于List【T】
- 测试
  - 先上传数据
```
hdfs dfs -mkdir /datas/

cd /export/server/spark

hdfs dfs -put examples/src/main/resources /datas/
```
- 启动sparkShell
```
bin/spark-shell --master local[2]
```
- 构建RDD
```
val inputRdd = sc.textFile("/datas/resources/people.json")
```
- 构建DF
```
val inputDF = spark.read.json("/datas/resources/people.json")
```
  - 构建DS
```
val inputDS = spark.read.textFile("/datas/resources/people.json")
```
    - DataFrame = DataSet[Row]
    - SparkSQL会自动根据读写类型接口去解析文件，获取Schema
    - 如果没有指定接口：整体作为一列Schema，value
小结
- RDD、DataFrame、DataSet三者之间的关系是什么？
  - RDD：RDD【T】：数据 + 支持泛型
  - DataFrame：DataFrame：数据 + Schema
    - 没有泛型，固定为Row类型
    - DataFrame = DataSet[Row]
  - DataSet：DataSet【T】：数据 + Schema + 泛型

05：数据结构抽象：Row类型

目标：掌握SparkSQL中DataFrame的Row类型的使用
路径
- step1：功能
- step2：创建
- step3：取值

实施

功能
- SparkSQL专门用于实现DataFrame数据类型存储的类型对象

取值

从DF中获取Row对象

scala> val row = inputDF.first
row: org.apache.spark.sql.Row = [null,Michael]

从Row对象中取出数据

//不建议：返回类型为Any
scala> row.get(1)
res1: Any = Michael
//不建议：返回类型比较固定
scala> row.getString(1)
res2: String = Michael
//建议使用以下两种方式
scala> row.getAs[String](1)
res3: String = Michael

scala> row.getAs[String]("name")
res4: String = Michael

创建

 * // Create a Row from values.
 * Row(value1, value2, value3, ...)
 * // Create a Row from a Seq of values.
 * Row.fromSeq(Seq(value1, value2, ...))

小结
- 掌握SparkSQL中DataFrame的Row类型的使用

06：数据结构抽象：关系转换

目标：了解RDD、DataFrame、DataSet之间的转换关系
路径
- step1：转换关系
- step2：DF/DS转RDD
- step3：RDD转DF/DS

实施

转换关系

DF/DS转RDD

scala> inputDF.rdd
res5: org.apache.spark.rdd.RDD[org.apache.spark.sql.Row] = MapPartitionsRDD[14] at rdd at <console>:26

scala> inputDS.rdd
res6: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[19] at rdd at <console>:26

scala> inputDF.schema
res7: org.apache.spark.sql.types.StructType = StructType(StructField(age,LongType,true), StructField(name,StringType,true))

scala> inputDS.schema
res8: org.apache.spark.sql.types.StructType = StructType(StructField(value,StringType,true))

函数
- .rdd：从DS或者DF取出RDD
- .schema：从DS或者DF取出Schema

RDD转DF/DS

Spark SQL supports two different methods for converting existing RDDs into Datasets. 
The first method uses reflection to infer the schema of an RDD that contains specific types of objects. 
the second method for creating Datasets is through a programmatic interface that allows you to construct a schema and then apply it to an existing RDD.

方式一：反射方式
- 将RDD中元素的类型更换为一个拥有Schema的类型：样例类【属性】
方式二：自定义Schema
- 根据RDD的数据内容，单独定义一个Schema对象：StructType（StructField...）
- 将RDD与Schema合并构建一个DataSet

小结
- 了解RDD、DataFrame、DataSet之间的转换关系