Spark零碎知识点

最新推荐文章于 2021-10-22 21:50:53 发布

置顶

大数据-刘耀文

最新推荐文章于 2021-10-22 21:50:53 发布

阅读量1.6k

点赞数

分类专栏： Spark

本文链接：https://blog.csdn.net/weixin_42741866/article/details/85931372

版权

本文详细介绍了Spark的Resilient Distributed Dataset（RDD）的特性和容错机制，强调了位置感知性和可伸缩性。讨论了RDD的属性，如分片、计算函数、依赖关系和Partitioner。对比了groupByKey和reduceByKey的差异，并解释了checkpoint的应用场景。此外，还阐述了shuffle过程、广播变量和Accumulator的使用。最后，涉及Spark SQL、Spark Streaming与Kafka的交互，以及数据存储和消费的策略。

摘要由CSDN通过智能技术生成

RDD的概念：
RDD（Resilient Distributed Dataset）叫做分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点：自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将工作集缓存在内存中，后续的查询能够重用工作集，这极大地提升了查询速度。

个人注释（非官方）：
自动容错：为了提高计算效率，在shuffle前实现容错只需要把丢失的分区对应的父RDD分区进行重新计算即可，但如果是shuffle后的分区数据丢失，此时就需要将整个父RDD分区调用shuffle算子进行重新计算。RDD的容错就是指的是RDD分区的恢复过程，和Worker宕机无关。
位置感知：就是把具体的计算逻辑传到对应的数据节点上进行计算，可以有效避免发生大量网络IO。
可伸缩性：即自动容错。

RDD的属性
在这里插入图片描述
1）一组分片（Partition），即数据集的基本组成单位。对于RDD来说，每个分片都会被一个计算任务处理，并决定并行计算的粒度。用户可以在创建RDD时指定RDD的分片个数，如果没有指定，那么就会采用默认值。默认值就是程序所分配到的CPU Core的数目。

2）一个计算每个分区的函数。Spark中RDD的计算是以分片为单位的，每个RDD都会实现compute函数以达到这个目的。compute函数会对迭代器进行复合，不需要保存每次计算的结果。

3）RDD之间的依赖关系。RDD的每次转换都会生成一个新的RDD，所以RDD之间就会形成类似于流水线一样的前后依赖关系。在部分分区数据丢失时，Spark可以通过这个依赖关系重新计算丢失的分区数据，而不是对RDD的所有分区进行重新计算。

4）一个Partitioner，即RDD的分片函数。当前Spark中实现了两种类型的分片函数，一个是基于哈希的HashPartitioner，另外一个是基于范围的RangePartitioner。只有对于key-value的RDD，才会有Partitioner，非key-value的RDD的Parititioner的值是None。Partitioner函数不但决定了RDD本身的分片数量，也决定了parent RDD Shuffle输出时的分片数量。

5）一个列表，存储存取每个Partition的优先位置（preferred location）。对于一个HDFS文件来说，这个列表保存的就是每个Partition所在的块的位置。按照“移动数据不如移动计算”的理念，Spark在进行任务调度的时候，会尽可能地将计算任务分配到其所要处理数据块的存储位置。

groupByKey和reduceByKey的区别
reduceByKey会先进行局部聚合，再进行全局聚合，这样会在全局聚合时减少网络IO，起到优化作用。所以，能用reduceByKey的情况，尽量用reduceByKey。

在这里插入图片描述

checkpoint的应用场景：
在应用程序执行过程中，有时候某些RDD的数据需要在其他地方多次用到（包括其他job中用到），
为了使得整个依赖链条不至于很长导致执行缓慢，可以用checkpoint来缩短依赖链条。
最好把数据checkpoint到HDFS，保证了数据的安全性，便于在用数据的时候进行拉取。

执行过程：
在代码层面是这样执行的，如果用到某个RDD的数据的时候，首先会检查是否做了缓存，如果做了缓存，会直接从缓存里面取数据，
如果没有做缓存，则判断是否做了checkpoint，如果做了checkpoint，则从checkpoint的指定路径下获取数据，
如果没有checkpoint，只能从新计算得到数据。

checkpoint的具体实现步骤：
1、设置一个checkpoint的目录
sc.setCheckpointDir(“hdfs://node01:9000/cp-20190105-1”)
2、把要checkpoint的RDD的数据进行cache
rdd.persist
3、checkpoint
rdd.checkpoint

最后在调用action算子的时候才会统一地进行cache和checkpoint，
而且该实现步骤是用于离线实现过程中的

查看是否做了checkpoint：rdd.isCheckpointed
查看checkpoint的存储目录：rdd.getCheckpointFile

map和mapPartitions的区别：
map是处理RDD里的每个元素，mapPartitions是用于处理RDD的每个分区的

map和foreach的区别：
1、map是有返回值的，foreach没有返回值
2、map常用于将某个RDD做元素的处理，而foreach常用于作为结果的输出到其他的存储系统中
3、map是属于transformation，foreach属于action

foreach和foreachPartition区别：
foreach是针对于RDD的每个元素来操作的，foreachPartition是针对于RDD的每个分区进行操作的
从优化层面讲：foreachPartition用于存储大量结果数据的场景，可以一个分区对应一个数据库的连接，这样就可以减少很多数据库的连接
rdd.foreachPartition(partition => {
val conn = … // 数据库连接
partition.foreach( // 进行存储)
})

stage划分过程
在这里插入图片描述

广播变量：
如果需要将Driver端的某个变量的值在Executor端多次使用，
可以将Driver端的某个变量的值以广播的方式传给多个Executor端，
Exeutor端在使用该值的时候就可以不经过网络IO从Driver端获取，而是直接从本地的缓存读取该值即可
这样既可以减少网络IO，又可以节省缓存（因为一个Executor只存一份广播变量就可以了），

广播过来的值会保存到Executor端的BlockManager

注意：
广播变量不可以广播RDD，因为RDD不会封装具体的值，而广播变量只能广播确切的值。
广播变量的值不易太大，如果太大，会把Executor端的缓存占用太多而导致计算时的内存太少而导致计算速度太慢或出现oom。
广播变量只能在Driver端定义，不能再Executor端定义。

Spark的Shuffle过程：
shuffle操作，是在Spark操作中调用了一些特殊的算子才会触发的一种操作，