Spark核心编程

最新推荐文章于 2022-01-02 09:28:52 发布

小努力and小岑岑

最新推荐文章于 2022-01-02 09:28:52 发布

阅读量142

点赞数 1

分类专栏： Spark 文章标签： spark 大数据

本文链接：https://blog.csdn.net/weixin_41618692/article/details/110821894

版权

Spark 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

Spark 核心编程

一、Spark基本工作原理与RDD

1.基本工作原理

分布式
基于内存（少数情况基于磁盘）
迭代式计算与MapReduce的最大不同
MR:分为两个阶段 map和reduce，两个阶段完了，job就结束了。所以在一个job里能做的处理有限。
Spark计算模型：可以分为n个阶段，是内存迭代式的，处理完一个阶段后，可以继续往下处理很多个阶段。

2.RDD

RDD是Spark提供的核心抽象，全称Resillient Distributed Dataset,弹性分布式数据集。
在抽象上说是一种元素集合，包含了数据。是被分区的，分为多个分区，每个分区分布在集群中不同节点上，从而让RDD中的数据可以被并行操作。
通过Hadoop上的文件，即HDFS或Hive表来进行创建；或应用程序中的集合。
容错性
默认存放在内存中，内存资源不足时，spark会自动将RDD数据写入磁盘。

3.spark 编程

核心开发
SQL查询、实时计算：底层都是RDD和计算操作

二、创建RDD

1.Spark Core提供了三种创建RDD的方式

包括：使用程序中的集合创建RDD,主要用于进行测试，可以在实际部署到集群运行之前，自己使用集合构造测试数据，来测试后面的spark应用的流程；
使用本地文件创建RDD,主要用于临时性地处理一些存储了大量数据的文件；
使用HDFS文件创建RDD,应该是最常用的生产环境处理方式，主要可以针对HDFS上存储的大数据，进行离线批处理操作。

2.并行化集合创建RDD

如果要通过并行化集合来创建RDD，需要针对程序中的集合，调用SparkContext的parallelize()方法。Spark会将集合中的数据拷贝到集群上去，形成一个分布式的数据集合，也就是一个RDD。相当于是，集合中的部分数据会到一个节点上，而另一部分数据会到其他节点上。然后就可以用并行的方式来操作这个分布式数据集合，即RDD。

调用parallelize()时，有一个重要的参数可以指定，就是要将集合切分成多少个partition。Spark会为每一个partition运行一个task来进行处理。Spark官方的建议是，为集群中
的每个CPU创建2~4个partition。Spark默认会根据集群的情况来设置partition的数量。但是也可以在调用parallelize()方法时，传入第二个参数，来设置RDD的partition数量。
比如parallelize(arr, 10)

3.使用本地文件和HDFS创建RDD

Spark是支持使用任何Hadoop支持的存储系统上的文件创建RDD的，比如说HDFS、Cassandra、HBase以及本地文件。通过调用SparkContext的textFile()方法，可以针对本地文件或HDFS文件创建RDD。

有几个事项是需要注意的：
1)、如果是针对本地文件的话，如果是在windows上本地测试，windows上有一份文件即可；如果是在spark集群上针对linux本地文件，那么需要将文件拷贝到所有worker节点上。
2)、Spark的textFile()方法支持针对目录、压缩文件以及通配符进行RDD创建。
3)、Spark默认会为hdfs文件的每一个block创建一个partition，但是也可以通过textFile()的第二个参数手动设置分区数量，只能比block数量多，不能比block数量少。

三、transformation和action

Spark支持两种RDD操作：transformation和action。transformation操作会针对已有的RDD创建一个新的RDD；而action则主要是对RDD进行最后的操作，比如遍历、reduce、
保存到文件等，并可以返回结果给Driver程序。
Spark有些特殊的算子，也就是特殊的transformation操作。比如groupByKey、sortByKey、reduceByKey等，其实只是针对特殊的RDD的。即包含key-value对的RDD。
而这种RDD中的元素，实际上是scala中的一种类型，即Tuple2，也就是包含两个值的Tuple。
在scala中，需要手动导入Spark的相关隐式转换，import
org.apache.spark.SparkContext._。然后，对应包含Tuple2的RDD，会自动隐式转换为PairRDDFunction，并提供
reduceByKey等方法。
常用transformation算子
map、filter、flatMap、groupByKey、reduceByKey 、sortByKey、 jion、cogroup.
常用action算子
reduce 、collect 、count 、take(n) 、saveAsTextFile、 countByKey 、foreach.

四、RDD持久化详解

1.原理

Spark非常重要的一个功能特性就是可以将RDD持久化在内存中。当对RDD执行持久化操作时，每个节点都会将自己操作的RDD的partition持久化到内存中，并且在之后对
该RDD的反复使用中，直接使用内存缓存的partition。这样的话，对于针对一个RDD反复执行多个操作的场景，就只要对RDD计算一次即可，后面直接使用该RDD，而不
需要反复计算多次该RDD。

巧妙使用RDD持久化，甚至在某些场景下，可以将spark应用程序的性能提升10倍。对于迭代式算法和快速交互式应用来说，RDD持久化，是非常重要的。

要持久化一个RDD，只要调用其cache()或者persist()方法即可。在该RDD第一次被计算出来时，就会直接缓存在每个节点中。而且Spark的持久化机制还是自动容错的，
如果持久化的RDD的任何partition丢失了，那么Spark会自动通过其源RDD，使用transformation操作重新计算该partition。

cache()和persist()的区别在于，cache()是persist()的一种简化方式，cache()的底层就是调用的persist()的无参版本，同时就是调用persist(MEMORY_ONLY)，将数据持久化到内存
中。如果需要从内存中清楚缓存，那么可以使用unpersist()方法。

Spark自己也会在shuffle操作时，进行数据的持久化，比如写入磁盘，主要是为了在节点失败时，避免需要重新计算整个过程。

2.持久化策略

RDD持久化是可以手动选择不同的策略的。比如可以将RDD持久化在内存中、持久化到磁盘上、使用序列化的方式持久化，多持久化的数据进行多路复用。
只要在调用persist()时传入对应的StorageLevel即可。

3.如何选择RDD持久化策略？

a.默认情况下，性能最高的当然是MEMORY_ONLY，但前提是内存必须足够足够大，可以绰绰有余地存放下整个RDD的所有数据。因为不进行序列化与反序列化操作，就避免了这部分的性能开销；对这个RDD的后续算子操作，都是基于纯内存中的数据的操作，不需要从磁盘文件中读取数据，性能也很高；而且不需要复制一份数据副本，并远程传送到其他节点上。但是这里必须要注意的是，在实际的生产环境中，恐怕能够直接用这种策略的场景还是有限的，如果RDD中数据比较多时（比如几十亿），直接用这种持久化级别，会导致JVM的OOM内存溢出异常。
b.如果使用MEMORY_ONLY级别时发生了内存溢出，那么建议尝试使用MEMORY_ONLY_SER级别。该级别会将RDD数据序列化后再保存在内存中，此时每个partition仅仅是一个字节数组而已，大大减少了对象数量，并降低了内存占用。这种级别比MEMORY_ONLY多出来的性能开销，主要就是序列化与反序列化的开销。但是后续算子可以基于纯内存进行操作，因此性能总体还是比较高的。此外，可能发生的问题同上，如果RDD中的数据量过多的话，还是可能会导致OOM内存溢出的异常。
c.如果纯内存的级别都无法使用，那么建议使用MEMORY_AND_DISK_SER策略，而不是MEMORY_AND_DISK策略。因为既然到了这一步，就说明RDD的数据量很大，内存无法完全放下。序列化后的数据比较少，可以节省内存和磁盘的空间开销。同时该策略会优先尽量尝试将数据缓存在内存中，内存缓存不下才会写入磁盘。
d.通常不建议使用DISK_ONLY和后缀为_2的级别：因为完全基于磁盘文件进行数据的读写，会导致性能急剧降低，有时还不如重新计算一次所有RDD。后缀为_2的级别，必须将所有数据都复制一份副本，并发送到其他节点上，数据复制以及网络传输会导致较大的性能开销，除非是要求作业的高可用性，否则不建议使用。

五、共享变量（Broadcast Variable和Accumulator）

1.原理

Spark一个非常重要的特性就是共享变量。

默认情况下，如果在一个算子的函数中使用到了某个外部的变量，那么这个变量的值会被拷贝到每个task中。此时每个task只能操作自己的那份变量副本。如果多个task想
要共享某个变量，那么这种方式是做不到的。

Spark为此提供了两种共享变量，一种是Broadcast Variable（广播变量），另一种是Accumulator（累加变量）。Broadcast Variable会将使用到的变量，仅仅为每个节点拷贝
一份，更大的用处是优化性能，减少网络传输以及内存消耗。Accumulator则可以让多个task共同操作一份变量，主要可以进行累加操作。

2.Broadcast Variable

Spark提供的Broadcast Variable，是只读的。并且在每个节点上只会有一份副本，而不会为每个task都拷贝一份副本。因此其最大作用，就是减少变量到各个节点的网络传
输消耗，以及在各个节点上的内存消耗。此外，spark自己内部也使用了高效的广播算法来减少网络消耗。

可以通过调用SparkContext的broadcast()方法，来针对某个变量创建广播变量。然后在算子的函数内，使用到广播变量时，每个节点只会拷贝一份副本了。每个节点可以使
用广播变量的value()方法获取值。记住，广播变量，是只读的。

3.Accumlator

Spark提供的Accumulator，主要用于多个节点对一个变量进行共享性的操作。
Accumulator只提供了累加的功能。但是却给我们提供了多个task对一个变量并行操作的功能。
但是task只能对Accumulator进行累加操作，不能读取它的值。只有Driver程序可以读取Accumulator的值。

总结

总结了最近对Spark基础的温习，主要是两方面：
1）spark的工作原理
2）与RDD的一些重要知识点与优化应用。

参考

https://www.cnblogs.com/weiyiming007/category/1485792.html

小努力and小岑岑

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark核心编程

Spark 核心编程一、Spark基本工作原理与RDD1.基本工作原理分布式基于内存（少数情况基于磁盘）迭代式计算与MapReduce的最大不同 MR:分为两个阶段 map和reduce，两个阶段完了，job就结束了。所以在一个job里能做的处理有限。 Spark计算模型：可以分为n个阶段，是内存迭代式的，处理完一个阶段后，可以继续往下处理很多个阶段。2.RDDRDD是Spark提供的核心抽象，全称Resillient Distributed Dataset,
复制链接

扫一扫