Spark 面试总结（2021-05-24更新）

最新推荐文章于 2024-06-18 17:38:20 发布

超级通勤者

最新推荐文章于 2024-06-18 17:38:20 发布

阅读量306

点赞数 1

分类专栏：大数据面试总结文章标签： spark

本文链接：https://blog.csdn.net/qq_20519927/article/details/116997471

版权

大数据面试总结专栏收录该内容

3 篇文章 0 订阅

订阅专栏

2021-05-18

知识点1: Spark 作业提交流程

1、Spark 客户端执行脚本提交任务，启动 SparkSubmit 的 JVM 进程。
2、Spark 客户端向 Yarn 客户端进行通信，Yarn 客户端收到指令后：
（1）ResourceManager 会指定一个 NodeManager 开启 ApplicationMaster 进程。
（2）在 ApplicationMaster 进程里面开启 Driver 线程，执行用户的作业。
（3）ApplicationMaster 向 ResourceManager 注册，并申请资源
3、ResourceManager 会另外指定一个 NodeManager 去执行任务
（1）开启一个容器 Container
（2）开启 Executor 后台运行进程
（3）向另外一个 NodeManager 的 Driver 线程注册
（4）Driver 线程会在 Executor 后台进程所在的 NodeManager 开启 Executor 线程，此时 Spark 任务才真正开始被执行

知识点2: Spark WordCount

val conf = new SparkConf().setMaster("local[*]").setAppName("SparkWordCount")
val sc = new SparkContext(conf)

//args(0)表示输入文件的路径
sc.textFile(args(0))
  .flatMap(_.split(" "))
  .map((_, 1))
  .reduceByKey(_ + _)
  .foreach(println)

sc.stop()

2021-05-19

知识点3: Spark Shuffle

3.1 未优化的 HashShuffle

1、每个 Executor 端有多个 MapTask，每个 MapTask 会根据下游 ReduceTask 的个数进行 hash 运算，落入到的 Reduce 文件序号为 hash 值 % ReduceTask 的个数。
2、在执行完 Spark 任务后，中间会产生一系列小文件，个数为 MapTask 的个数乘以 ReduceTask 的个数。接下来会按照相同的 hash 值聚合成下游的 Reduce 文件。

3.2 优化的 HashShuffle

大体过程和未优化的 HashShuffle 相同，区别是在产生一系列小文件之后，会按照 Executor 为单位，对具有相同 hash 值的文件进行合并，这样可以有效减少小文件的个数。

3.3 SortShuffle

对于每个 Executor，会有多个 MapTask。每个 MapTask 处理文件的大小达到一定的阈值（这个值是由 Spark 的动态内存管理机制来确定的）时，会对文件进行排序，此时还会得到一个 index（索引）文件用于记录关键字的序号。

3.4 Bypass 机制

1、触发条件
（1）不是预聚合算子
（2）MapTask 的个数小于 spark.shuffle.sort.bypassMergeThreshold（参数默认为200，在企业里设置为500）
2、基本原理
大体过程和 SortShuffle 类似，只是首先会将文件存入到缓冲区中，达到一定的阈值以后不会对文件进行排序操作。

知识点4: Spark 内存管理模型

4.1 静态内存管理模型

	比例
存储	60%
计算	20%
其他	20%

4.2 动态内存管理模型（Spark V1.6）

	比例
存储	30%
计算	30%
其他	40%
预留	300M

案例1: 如果 Spark 计算内存不够，占用了存储的一部分内存，存储的内存不够用了，能否让计算部分归还内存？
不可以，因为计算操作没有执行完毕，释放资源会导致计算结果出现错误，因此需要等计算结束后，将存储部分的资源释放以后再归还内存。

4.3 堆外内存 vs 堆内内存

	比例
堆外内存	由操作系统进行管理，Spark 可以直接进行回收
	内存的分配是由 UnsafeMemoryAllocator 完成的
堆内内存	受到 JVM 的管理
	内存的分配是由 HeapMemoryAllocator 完成的

知识点5: 3种join

5.0 适用条件

	比例
hash join	小表 join 小表
broadcast join	小表 join 大表
sort merge join	大表 join 大表

5.1 hash join

1、确定 Build Table 以及 Probe Table
（1）Build Table: 一般选择小表作为 Build Table，使用 join 字段构建 HashTable
（2）Probe Table: 对每一行数据使用 join字段进行匹配，匹配成功可以 join在一起
2、注意点: 一般会将数据缓存到内存中，如果内存存放不下需要存放到外存中。

5.2 broadcast join

基本原理: 将其中一张小表广播的记录结果查询出来，分发到另一张大表所在的分区节点上，分别并发地与分区记录进行 hash join。

5.3 sort merge join

1、将两张大表根据 join 字段重新进行分区。
2、对每个分区节点的两张表的数据，分别进行排序。
3、对排好序的两张分区表的数据执行 hash join 操作。

2021-05-24

知识点6: Spark 优化策略


1. 算子类	map -> mapPartitions	map 对每个元素进行操作、mapPartitions 对每个分区进行操作，分区内所有数据不全部处理完不释放内存
	foreach -> foreachPartitions	减少数据库连接操作
	filter + coalesce
	groupByKey -> reduceByKey
2. Executor	Executor 个数、Executor 内存、Executor 核心个数
3. shuffle	避免 shuffle
	增大 shuffle 端缓冲区大小	默认为 32k
	reduce 端: 增加拉取次数、增大拉取时间、增加重试次数
	增大 bypassMergeThreshold	默认为200，一般可以调整为500

知识点7: Spark 数据倾斜


判断是否出现数据倾斜	countByKey、sample
1	避免 shuffle
2	增大 Executor 的并行度	spark.sql.shuffle.partitions（默认200）
3	单个 key: 在使用 map 算子处理的时候打上随机数的标签，然后在 Executor 端聚合的时候去掉标签
4	多个 key: （1）对其中一个 RDD 打上 1~n 的随机标签，对另一个 RDD 的每个元素都打上 1-n 的随机标签
	（2）首先使用抽样算子 sample 找到数据量过大的 key 的 RDD，将这些 RDD 分别从两个 RDD 中抽取出来
	（3）然后将两个没有膨胀的 RDD 进行 join 操作
	（4）将上面两步结果使用 union 算子结合。

知识点8: Spark 错误排查


1. 文件路径	（1）生成的文件是否在 HDFS 上存在
	（2）Spark 部署模式为 cluster，但默认只设置了 1 个副本
2. 内存	（1）减少 Executor 的个数、Executor 的内存大小、Executor 的核心个数
	（2）将多条 SQL 拆开执行
3. 设置多队列	在 Spark 执行任务的时候需要指定队列名称
4. 有状态算子	需要设置检查点文件的路径

知识点9: Spark Streaming 参数


1. 第一次运行不丢失数据	auto.offset.reset = earliest
2. 控制消费的速度	spark.streaming.kafka.maxRatePerPartition
3. 开启背压机制	spark.streaming.backpressure.enabled = true
4. 优雅关闭	spark.streaming.stopGracefullyOnShutdown = true
5. 自动提交偏移量	enable.auto.commit = false

知识点10: Spark 常见算子对比


1. reduceByKey 和 groupByKey	reduceByKey 在 shuffle 之前会按照 Executor 为单位进行预聚合
2. map 和 flatMap	map: 1 个输入 -> 1 个输出	flatMap: 1 个输入 -> 多个输出
3. coalesce 和 repartition	coalesce: 减少分区的个数，不会进行 shuffle	repartition: 增加分区的个数，一定 shuffle
4. reduceByKey 和 updateStateByKey	updateStateByKey 是有状态算子	reduceByKey 是无状态算子
5. aggregateByKey 和 aggregate	aggregateByKey 只有分区间能使用初值	aggregate 分区内和分区间都使用初值

知识点12: Spark 其他知识点


1. Spark 缓存机制	（1）RDD 只缓存到内存，而 DataFrame 会同时缓存到内存和磁盘
	（2）cache 不会切断血缘关系，而 checkpoint 会切断血缘关系
2. Spark 的部署模式	Local、Standalone、Yarn、Mesos
3. Spark 的 RDD、DataFrame 和 DataSet 的区别	RDD 中的每个数据无法了解其数据结构
	DataFrame 虽然知道有哪些字段，但不知道字段的类型
	DataSet 既知道有哪些字段，还知道这些字段的类型