SparkCore

最新推荐文章于 2024-01-23 23:14:24 发布

pageniao

最新推荐文章于 2024-01-23 23:14:24 发布

阅读量373

点赞数

分类专栏： Spark

本文链接：https://blog.csdn.net/pageniao/article/details/106248578

版权

Spark 专栏收录该内容

34 篇文章 0 订阅

订阅专栏

一、RDD概述

1.1 什么是RDD

RDD（Resilient Distributed Dataset）叫做分布式数据集，是Spark中最基本的数据抽象。代码中是一个抽象类，它代表一个不可变、可分区、里面的元素可并行计算的集合。

1.2 RDD的属性

在这里插入图片描述

一组分区（Partition），即数据集的基本组成单位;
一个计算每个分区的函数;
RDD之间的依赖关系;
一个Partitioner，即RDD的分片函数;
一个列表，存储存取每个Partition的优先位置（preferred location）。

1.3 RDD特点

RDD表示只读的分区的数据集，对RDD进行改动，只能通过RDD的转换操作，由一个RDD得到一个新的RDD，新的RDD包含了从其他RDD衍生所必需的信息。RDDs之间存在依赖，RDD的执行是按照血缘关系延时计算的。如果血缘关系较长，可以通过持久化RDD来切断血缘关系。

1.3.1 分区

RDD逻辑上是分区的，每个分区的数据是抽象存在的，计算的时候会通过一个compute函数得到每个分区的数据。如果RDD是通过已有的文件系统构建，则compute函数是读取指定文件系统中的数据，如果RDD是通过其他RDD转换而来，则compute函数是执行转换逻辑将其他RDD的数据进行转换。
在这里插入图片描述

1.3.2 只读

如下图所示，RDD是只读的，要想改变RDD中的数据，只能在现有的RDD基础上创建新的RDD。
在这里插入图片描述
由一个RDD转换到另一个RDD，可以通过丰富的操作算子实现，不再像MapReduce那样只能写map和reduce了，如下图所示。

RDD的操作算子包括两类，一类叫做transformations，它是用来将RDD进行转化，构建RDD的血缘关系；另一类叫做actions，它是用来触发RDD的计算，得到RDD的相关计算结果或者将RDD保存的文件系统中。下图是RDD所支持的操作算子列表。

1.3.3 依赖

RDDs通过操作算子进行转换，转换得到的新RDD包含了从其他RDDs衍生所必需的信息，RDDs之间维护着这种血缘关系，也称之为依赖。如下图所示，依赖包括两种，一种是窄依赖，RDDs之间分区是一一对应的，另一种是宽依赖，下游RDD的每个分区与上游RDD(也称之为父RDD)的每个分区都有关，是多对多的关系。
在这里插入图片描述

1.3.4 缓存

如果在应用程序中多次使用同一个RDD，可以将该RDD缓存起来，该RDD只有在第一次计算的时候会根据血缘关系得到分区的数据，在后续其他地方用到该RDD的时候，会直接从缓存处取而不用再根据血缘关系计算，这样就加速后期的重用。如下图所示，RDD-1经过一系列的转换后得到RDD-n并保存到hdfs，RDD-1在这一过程中会有个中间结果，如果将其缓存到内存，那么在随后的RDD-1转换到RDD-m这一过程中，就不会计算其之前的RDD-0了。
在这里插入图片描述

1.3.5 CheckPoint

虽然RDD的血缘关系天然地可以实现容错，当RDD的某个分区数据失败或丢失，可以通过血缘关系重建。但是对于长时间迭代型应用来说，随着迭代的进行，RDDs之间的血缘关系会越来越长，一旦在后续迭代过程中出错，则需要通过非常长的血缘关系去重建，势必影响性能。为此，RDD支持checkpoint将数据保存到持久化的存储中，这样就可以切断之前的血缘关系，因为checkpoint后的RDD不需要知道它的父RDDs了，它可以从checkpoint处拿到数据。

二、RDD编程

2.1 编程模型

在Spark中，RDD被表示为对象，通过对象上的方法调用来对RDD进行转换。经过一系列的transformations定义RDD之后，就可以调用actions触发RDD的计算，action可以是向应用程序返回结果(count, collect等)，或者是向存储系统保存数据(saveAsTextFile等)。在Spark中，只有遇到action，才会执行RDD的计算(即延迟计算)，这样在运行时可以通过管道的方式传输多个转换。
要使用Spark，开发者需要编写一个Driver程序，它被提交到集群以调度运行Worker，如下图所示。Driver中定义了一个或多个RDD，并调用RDD上的action，Worker则执行RDD分区计算任务。
在这里插入图片描述

2.2 RDD的创建

在Spark中创建RDD的创建方式可以分为三种：从集合中创建RDD；从外部存储创建RDD；从其他RDD创建。

import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.rdd.RDD

object SparkOperation {

    def main(args: Array[String]): Unit = {

        //初始化配置
        val conf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("Operation")

        //创建SparkContext对象
        val sc: SparkContext = SparkContext.getOrCreate(conf)

        //从内存中创建RDD,可以通过第二个参数指定RDD的分区数，如果不指定则内核数和2之间最大值为分区数
        val rdd: RDD[Int] = sc.makeRDD(Array(1,2,3,4,5,6,7,8),3)
        val rdd2: RDD[Int] = sc.parallelize(Array(1,2,3,4,5,6,7,8),2)

        //从外部存储文件中创建RDD,可以通过第二个参数指定RDD的分区数，如果不指定则内核数和2之间最小值为分区数，但最终分区数收到hdfs底层切片规则影响
        val rdd3: RDD[String] = sc.textFile("in/student.txt",3) // 可以是目录或文件路径

        //打印
        rdd.collect().foreach(println)
        rdd2.collect().foreach(println)
        rdd3.collect().foreach(println)

        sc.stop()
    }
}

2.3 RDD的转换

RDD整体上分为Value类型和Key-Value类型

2.3.1 Value类型

2.3.1.1 mapxxx

import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.rdd.RDD

object SparkOperation {

    def main(args: Array[String]): Unit = {

        //初始化配置
        val conf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("Operation")

        //创建SparkContext对象
        val sc: SparkContext = SparkContext.getOrCreate(conf)

        //从内存中创建RDD,可以通过第二个参数指定RDD的分区数，如果不指定则内核数和2之间最大值为分区数
        val rdd: RDD[Int] = sc.makeRDD(Array(1, 2, 3, 4, 5, 6, 7, 8), 3)

        // 1.返回一个新的RDD，该RDD由每一个输入元素经过func函数转换后组成
        val rdd2: RDD[Int] = rdd.map(_ * 2)
        rdd2.collect().foreach(println)

        /**
         * 2.mapPartitions类似于map，但独立地在RDD的每一个分片上运行，因此在类型为T的RDD上运行时，
         * func的函数类型必须是Iterator[T] => Iterator[U]。
         * 假设有N个元素，有M个分区，那么map的函数的将被调用N次,
         * 而mapPartitions被调用M次,一个函数一次处理所有分区。
         */
        rdd.mapPartitions(x => x.map(_ * 2)).collect().foreach(println)

        /**
         *  3.mapPartitionsWithIndex(func)类似于mapPartitions，但func带有一个整数参数表示分片的索引值，因此在类型为T的RDD上运行时，
         * func的函数类型必须是(Int, Iterator[T]) => Iterator[U]；
         */
        val rdd3: RDD[(String, Int)] = rdd.mapPartitionsWithIndex((index, x) => x.map(("所在分区：" + index, _)))
        rdd3.collect().foreach(println)

        /**
         * 4.flatMap(func)类似于map，但是每一个输入元素可以被映射为0或多个输出元素（所以func应该返回一个序列，而不是单一元素）
         */
        val rdd4 = sc.makeRDD(Array(Array(1,3,5,7),Array(2,4,6,8),Array(9,10)))
        rdd4.flatMap(array=>array).collect().foreach(println)

        sc.stop()
    }
}

2.3.1.2 glom

将每一个分区形成一个数组，形成新的RDD类型时RDD[Array[T]]
在这里插入图片描述

2.3.1.3 groupBy(func)

分组，按照传入函数的返回值进行分组。将相同的key对应的值放入一个迭代器。
在这里插入图片描述

2.3.1.4 filter(func) 案例

返回一个新的RDD，该RDD由经过func函数计算后返回值为true的输入元素组成。
在这里插入图片描述

2.3.1.5 sample(withReplacement, fraction, seed)

以指定的随机种子随机抽样出数量为fraction的数据，withReplacement表示是抽出的数据是否放回，true为有放回的抽样，false为无放回的抽样，seed用于指定随机数生成器种子。
在这里插入图片描述

2.3.1.6 distinct([numTasks]))

对源RDD进行去重后返回一个新的RDD。默认情况下，只有8个并行任务来操作，但是可以传入一个可选的numTasks参数改变它。
在这里插入图片描述

2.3.1.7 coalesce(numPartitions)

缩减分区数，用于大数据集过滤后，提高小数据集的执行效率。
在这里插入图片描述

2.3.1.8 repartition(numPartitions)

根据分区数，重新通过网络随机洗牌所有数据。
在这里插入图片描述
coalesce和repartition的区别

coalesce重新分区，可以选择是否进行shuffle过程。由参数shuffle: Boolean = false/true决定。
repartition实际上是调用的coalesce，默认是进行shuffle的。源码如下：

def repartition(numPartitions: Int)(implicit ord: Ordering[T] = null): RDD[T] = withScope {
  coalesce(numPartitions, shuffle = true)
}

2.3.1.9 sortBy(func,[ascending], [numTasks])

用func先对数据进行处理，按照处理后的数据比较结果排序，默认为正序。
在这里插入图片描述

2.3.2 双Value类型交互

2.3.2.1 union(otherDataset)

对源RDD和参数RDD求并集后返回一个新的RDD
在这里插入图片描述

2.3.2.2 subtract (otherDataset)

计算差的一种函数，去除两个RDD中相同的元素，不同的RDD将保留下来
在这里插入图片描述

2.3.2.3 intersection(otherDataset)

对源RDD和参数RDD求交集后返回一个新的RDD
在这里插入图片描述

2.3.2.4 cartesian(otherDataset)

笛卡尔积（尽量避免使用）
在这里插入图片描述

2.3.2.5 zip(otherDataset)

将两个RDD组合成Key/Value形式的RDD,这里默认两个RDD的partition数量以及元素数量都相同，否则会抛出异常。
在这里插入图片描述

2.3.3 Key-Value类型

2.3.3.1 partitionBy

对pairRDD进行分区操作，如果原有的partionRDD和现有的partionRDD是一致的话就不进行分区，否则会生成ShuffleRDD，即会产生shuffle过程。
在这里插入图片描述

2.3.3.2 groupByKey

groupByKey也是对每个key进行操作，但只生成一个sequence。
在这里插入图片描述

2.3.3.3 reduceByKey(func, [numTasks])

在一个(K,V)的RDD上调用，返回一个(K,V)的RDD，使用指定的reduce函数，将相同key的值聚合到一起，reduce任务的个数可以通过第二个可选的参数来设置。
在这里插入图片描述
reduceByKey和groupByKey的区别：

reduceByKey：按照key进行聚合，在shuffle之前有combine（预聚合）操作，返回结果是RDD[k,v].
groupByKey：按照key进行分组，直接进行shuffle。
开发指导：reduceByKey比groupByKey，建议使用。但是需要注意是否会影响业务逻辑。

2.3.3.4 aggregateByKey

参数：(zeroValue:U,[partitioner: Partitioner]) (seqOp: (U, V) => U,combOp: (U, U) => U)

作用：在kv对的RDD中，，按key将value进行分组合并，合并时，将每个value和初始值作为seq函数的参数，进行计算，返回的结果作为一个新的kv对，然后再将结果按照key进行合并，最后将每个分组的value传递给combine函数进行计算（先将前两个value进行计算，将返回结果和下一个value传给combine函数，以此类推），将key与计算结果作为一个新的kv对输出。
参数描述：
（1）zeroValue：给每一个分区中的每一个key一个初始值；
（2）seqOp：函数用于在每一个分区中用初始值逐步迭代value；
（3）combOp：函数用于合并每个分区中的结果。

2.3.3.5 foldByKey

参数：(zeroValue: V)(func: (V, V) => V): RDD[(K, V)]
aggregateByKey的简化操作，seqop和combop相同
在这里插入图片描述

2.3.3.6 combineByKey[C]

(createCombiner: V => C, mergeValue: (C, V) => C, mergeCombiners: (C, C) => C)

作用：对相同K，把V合并成一个集合。
参数描述：
（1）createCombiner: combineByKey() 会遍历分区中的所有元素，因此每个元素的键要么还没有遇到过，要么就和之前的某个元素的键相同。如果这是一个新的元素,combineByKey()会使用一个叫作createCombiner()的函数来创建那个键对应的累加器的初始值
（2）mergeValue: 如果这是一个在处理当前分区之前已经遇到的键，它会使用mergeValue()方法将该键的累加器对应的当前值与这个新的值进行合并
（3）mergeCombiners: 由于每个分区都是独立处理的，因此对于同一个键可以有多个累加器。如果有两个或者更多的分区都有对应同一个键的累加器，就需要使用用户提供的 mergeCombiners() 方法将各个分区的结果进行合并。

2.3.3.7 sortByKey([ascending], [numTasks])

在一个(K,V)的RDD上调用，K必须实现Ordered接口，返回一个按照key进行排序的(K,V)的RDD
在这里插入图片描述

2.3.3.8 mapValues

针对于(K,V)形式的类型只对V进行操作
在这里插入图片描述

2.3.3.9 join(otherDataset, [numTasks])

在类型为(K,V)和(K,W)的RDD上调用，返回一个相同key对应的所有元素对在一起的(K,(V,W))的RDD
在这里插入图片描述

2.3.3.10 cogroup(otherDataset, [numTasks])

在类型为(K,V)和(K,W)的RDD上调用，返回一个(K,(Iterable,Iterable))类型的RDD
在这里插入图片描述

2.4 Action

2.4.1 reduce(func)

通过func函数聚集RDD中的所有元素，先聚合分区内数据，再聚合分区间数据。
在这里插入图片描述

2.4.2 collect() & collect[U: ClassTag](f: PartialFunction[T, U]): RDD[U]

collect()：

collect()的作用

Spark内有collect方法，是Action操作里边的一个算子，这个方法可以将RDD类型的数据转化为数组，同时会从远程集群是拉取数据到driver端。

已知的弊端

首先，collect是Action里边的，根据RDD的惰性机制，真正的计算发生在RDD的Action操作。那么，一次collect就会导致一次Shuffle，而一次Shuffle调度一次stage，然而一次stage包含很多个已分解的任务碎片Task。这么一来，会导致程序运行时间大大增加，属于比较耗时的操作，即使是在local模式下也同样耗时。
其次，从环境上来讲，本机local模式下运行并无太大区别，可若放在分布式环境下运行，一次collect操作会将分布式各个节点上的数据汇聚到一个driver节点上，而这么一来，后续所执行的运算和操作就会脱离这个分布式环境而相当于单机环境下运行，这也与Spark的分布式理念不合。
最后，将大量数据汇集到一个driver节点上，并且像这样val arr = data.collect()，将数据用数组存放，占用了jvm堆内存，可想而知，是有多么轻松就会内存溢出。

如何规避

若需要遍历RDD中元素，大可不必使用collect，可以使用foreach语句；
若需要打印RDD中元素，可用take语句，返回数据集前n个元素，data.take(1000).foreach(println)，这点官方文档里有说明；
若需要查看其中内容，可用saveAsTextFile方法。
总之，单机环境下使用collect问题并不大，但分布式环境下尽量规避，如有其他需要，手动编写代码实现相应功能就好。

collectPartitions：同样属于Action的一种操作，同样也会将数据汇集到Driver节点上，与collect区别并不是很大，唯一的区别是：collectPartitions产生数据类型不同于collect，collect是将所有RDD汇集到一个数组里，而collectPartitions是将各个分区内所有元素存储到一个数组里，再将这些数组汇集到driver端产生一个数组；collect产生一维数组，而collectPartitions产生二维数组。

在这里插入图片描述
collect[U: ClassTag](f: PartialFunction[T, U]): RDD[U]

偏函数

偏函数可以提供了简洁的语法，可以简化函数的定义。配合集合的函数式编程，可以让代码更加优雅。
偏函数被包在花括号内没有match的一组case语句是一个偏函数
偏函数是PartialFunction[A, B]的一个实例
A代表输入参数类型
B代表返回结果类型

实例：

        val sparkConf: SparkConf = new SparkConf().setAppName("dau_app").setMaster("local[*]")
        val sc = new SparkContext(sparkConf)

        val rdd: RDD[Int] = sc.parallelize(Array(1, 3, 4, 5, 6, 7, 8))

        val rdd2 = rdd.collect {
            case 1 => "one"
            case 2 => "two"
            case _ => "three"
        }

        println(rdd2.collect().mkString("*")) // one*three*three*three*three*three*three

2.4.3 count()

返回RDD中元素的个数
在这里插入图片描述

2.4.4 first()

返回RDD中的第一个元素
在这里插入图片描述

2.4.5 take(n)

返回一个由RDD的前n个元素组成的数组
在这里插入图片描述

2.4.6 takeOrdered(n)

返回该RDD排序后的前n个元素组成的数组
在这里插入图片描述

2.4.7 aggregate

参数：(zeroValue: U)(seqOp: (U, T) ⇒ U, combOp: (U, U) ⇒ U)
aggregate函数将每个分区里面的元素通过seqOp和初始值进行聚合，然后用combine函数将每个分区的结果和初始值(zeroValue)进行combine操作。这个函数最终返回的类型不需要和RDD中元素类型一致。

scala> val rdd = sc.makeRDD(Array(1,2,2,2), 2)
rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[20] at makeRDD at <console>:24

scala> rdd.glom.collect
res24: Array[Array[Int]] = Array(Array(1, 2), Array(2, 2))

scala> rdd.aggregate(0)(_+_,_+_)
res25: Int = 7

scala> rdd.aggregate(10)(_+_,_+_) # 分区内分别与初始值相加运算，分区间分别与初始值相加运算
res26: Int = 37

scala> val rdd2 = sc.makeRDD(List(("a",1), ("b",2), ("b",3), ("b",4)),2)
rdd2: org.apache.spark.rdd.RDD[(String, Int)] = ParallelCollectionRDD[26] at makeRDD at <console>:24

scala> rdd2.glom.collect
res30: Array[Array[(String, Int)]] = Array(Array((a,1), (b,2)), Array((b,3), (b,4)))

scala> rdd2.aggregateByKey(0)(_+_, _+_).collect
res31: Array[(String, Int)] = Array((b,9), (a,1))

scala> rdd2.aggregateByKey(10)(_+_, _+_).collect # 只分区内分别与初始值相加运算，而分区间不再与初始值相加
res32: Array[(String, Int)] = Array((b,29), (a,11))

2.4.8 fold(num)(func)

折叠操作，aggregate的简化操作，seqop和combop一样。
在这里插入图片描述
Scala中的foldLeft和foldRight回顾
（1）源码分析：

def foldLeft[B](z : B)(op : (B, A) => B) : B = { // 第一个参数为B类型的初始值z,第二个参数为返回B类型的函数
    var result = z
    this.seq foreach (x => result = op(result, x))
    result
}

(2) 用法在这里插入图片描述解析：

1.i从左开始遍历List每一个元素
2.sum的初始值为第一个参数
3.从左遍历，初始值在第二个参数的左边

(3) foldRight()()
在这里插入图片描述解析：

1.i从右开始遍历List每一个元素
2.sum的初始值为第一个参数
3.从右遍历，初始值在第二个参数的右边

2.4.9 saveAsTextFile(path)

将数据集的元素以textfile的形式保存到HDFS文件系统或者其他支持的文件系统，对于每个元素，Spark将会调用toString方法，将它装换为文件中的文本

2.4.10 saveAsSequenceFile(path)

将数据集中的元素以Hadoop sequencefile的格式保存到指定的目录下，可以使HDFS或者其他Hadoop支持的文件系统。

2.4.11 saveAsObjectFile(path)

用于将RDD中的元素序列化成对象，存储到文件中。

2.4.12 countByKey()

针对(K,V)类型的RDD，返回一个(K,Int)的map，表示每一个key对应的元素个数。
在这里插入图片描述

2.4.13 foreach(func)

在数据集的每一个元素上，运行函数func进行更新。
在这里插入图片描述

2.5 RDD中的函数传递

在实际开发中我们往往需要自己定义一些对于RDD的操作，那么此时需要注意的是，初始化工作是在Driver端进行的，而实际运行程序是在Executor端进行的，这就涉及到了跨进程通信，是需要序列化的。下面我们看几个例子：

2.5.1 传递一个方法

import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.rdd.RDD

object SearchTest {
    def main(args: Array[String]): Unit = {

        val conf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("search")

        val sc: SparkContext = SparkContext.getOrCreate(conf)
        
        val rdd: RDD[String] = sc.parallelize(Array("hadoop", "spark", "hive", "atguigu"))
        
        val search: Search = new Search("h")

        val rdd2: RDD[String] = search.getMatch01(rdd)
        rdd2.collect().foreach(println)
    }
}

class Search(query: String) extends Serializable {

    //过滤出包含字符串的数据
    def isMatch(s: String): Boolean = {
        s.contains(query)
    }

    //过滤出包含字符串的RDD
    def getMatch01(rdd:RDD[String]):RDD[String]={
        rdd.filter(isMatch)
    }

    //过滤出包含字符串的RDD
    def getMatch02(rdd:RDD[String]):RDD[String]={
        rdd.filter(x=>x.contains(query))
    }
}

如果类不继承Serializable会报下面的错

Exception in thread "main" org.apache.spark.SparkException: Task not serializable

这是因为getMatch1 方法中所调用的方法isMatch()是定义在Search这个类中的，实际上调用的是this. isMatch()，this表示Search这个类的对象，程序在运行过程中需要将Search对象序列化以后传递到Executor端。

2.5.2 传递一个属性

import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.rdd.RDD

object SearchTest {
    def main(args: Array[String]): Unit = {

        val conf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("search")

        val sc: SparkContext = SparkContext.getOrCreate(conf)
        
        val rdd: RDD[String] = sc.parallelize(Array("hadoop", "spark", "hive", "atguigu"))
        
        val search: Search = new Search("h")

        val rdd2: RDD[String] = search.getMatch02(rdd)
        rdd2.collect().foreach(println)
    }
}

如果类不继承Serializable同样会报下面的错

Exception in thread "main" org.apache.spark.SparkException: Task not serializable

这是因为getMatche2方法中所调用的方法query是定义在Search这个类中的字段，实际上调用的是this. query，this表示Search这个类的对象，程序在运行过程中需要将Search对象序列化以后传递到Executor端。

2.6 RDD依赖关系

2.6.1 Lineage

RDD只支持粗粒度转换，即在大量记录上执行的单个操作。将创建RDD的一系列Lineage（血统）记录下来，以便恢复丢失的分区。RDD的Lineage会记录RDD的元数据信息和转换行为，当该RDD的部分分区数据丢失时，它可以根据这些信息来重新运算和恢复丢失的数据分区。
在这里插入图片描述
（1）读取一个文件并将其中内容映射成一个个元组

**注意：**RDD和它依赖的父RDD（s）的关系有两种不同的类型，即窄依赖（narrow dependency）和宽依赖（wide dependency）。

2.6.2 窄依赖

窄依赖指的是每一个父RDD的Partition最多被子RDD的一个Partition使用,窄依赖我们形象的比喻为独生子女
在这里插入图片描述

2.6.3 宽依赖

宽依赖指的是多个子RDD的Partition会依赖同一个父RDD的Partition，会引起shuffle,总结：宽依赖我们形象的比喻为超生
在这里插入图片描述

2.6.4 DAG

DAG(Directed Acyclic Graph)叫做有向无环图，原始的RDD通过一系列的转换就就形成了DAG，根据RDD之间的依赖关系的不同将DAG划分成不同的Stage，对于窄依赖，partition的转换处理在Stage中完成计算。对于宽依赖，由于有Shuffle的存在，只能在parent RDD处理完成后，才能开始接下来的计算，因此宽依赖是划分Stage的依据。
在这里插入图片描述

2.6.5 任务划分

RDD任务切分中间分为：Application、Job、Stage和Task
1）Application：初始化一个SparkContext即生成一个Application
2）Job：一个Action算子就会生成一个Job
3）Stage：根据RDD之间的依赖关系的不同将Job划分成不同的Stage，遇到一个宽依赖则划分一个Stage。
在这里插入图片描述
4）Task：Stage是一个TaskSet，将Stage划分的结果发送到不同的Executor执行即为一个Task。
**注意：**Application->Job->Stage-> Task每一层都是1对n的关系。

2.7 RDD缓存

RDD通过persist方法或cache方法可以将前面的计算结果缓存，默认情况下 persist() 会把数据以序列化的形式缓存在 JVM 的堆空间中。
但是并不是这两个方法被调用时立即缓存，而是触发后面的action时，该RDD将会被缓存在计算节点的内存中，并供后面重用。
在这里插入图片描述
通过查看源码发现cache最终也是调用了persist方法，默认的存储级别都是仅在内存存储一份，Spark的存储级别还有好多种，存储级别在object StorageLevel中定义的。

在存储级别的末尾加上“_2”来把持久化数据存为两份
在这里插入图片描述
缓存有可能丢失，或者存储存储于内存的数据由于内存不足而被删除，RDD的缓存容错机制保证了即使缓存丢失也能保证计算的正确执行。通过基于RDD的一系列转换，丢失的数据会被重算，由于RDD的各个Partition是相对独立的，因此只需要计算丢失的部分即可，并不需要重算全部Partition。

将RDD转换为携带当前时间戳不做缓存
在这里插入图片描述
将RDD转换为携带当前时间戳并做缓存

2.8 RDD CheckPoint

Spark中对于数据的保存除了持久化操作之外，还提供了一种检查点的机制，检查点（本质是通过将RDD写入Disk做检查点）是为了通过lineage做容错的辅助，lineage过长会造成容错成本过高，这样就不如在中间阶段做检查点容错，如果之后有节点出现问题而丢失分区，从做检查点的RDD开始重做Lineage，就会减少开销。检查点通过将数据写入到HDFS文件系统实现了RDD的检查点功能。
为当前RDD设置检查点。该函数将会创建一个二进制的文件，并存储到checkpoint目录中，该目录是用SparkContext.setCheckpointDir()设置的。在checkpoint的过程中，该RDD的所有依赖于父RDD中的信息将全部被移除。对RDD进行checkpoint操作并不会马上被执行，必须执行Action操作才能触发。

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

object ScalaTest {
    def main(args: Array[String]): Unit = {

        val conf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("conf")

        val sc: SparkContext = SparkContext.getOrCreate(conf)

        // 设置检查点的存储目录
        sc.setCheckpointDir("hdfs://hadoop:9000/checkpoint")

        //创建字符串和系统时间拼接的字符串RDD
        val rdd: RDD[String] = sc.makeRDD(Array("hello "))
        val rdd2: RDD[String] = rdd.map(_+System.currentTimeMillis())

        // 对RDD指定checkpoint
        rdd2.checkpoint()

        // 结果显示时间数字是不变的
        for(i <- 0 to 9){
            rdd2.collect().foreach(println)
        }
    }
}

三、键值对RDD数据分区器

Spark目前支持Hash分区和Range分区，用户也可以自定义分区，Hash分区为当前的默认分区，Spark中分区器直接决定了RDD中分区的个数、RDD中每条数据经过Shuffle过程属于哪个分区和Reduce的个数
注意：
(1)只有Key-Value类型的RDD才有分区器的，非Key-Value类型的RDD分区器的值是None
(2)每个RDD的分区ID范围：0~numPartitions-1，决定这个值是属于那个分区的。

3.1 获取RDD分区

可以通过使用RDD的partitioner 属性来获取 RDD 的分区方式。它会返回一个 scala.Option 对象，通过get方法获取其中的值。相关源码如下：

def getPartition(key: Any): Int = key match {
  case null => 0
  case _ => Utils.nonNegativeMod(key.hashCode, numPartitions)
}
def nonNegativeMod(x: Int, mod: Int): Int = {
  val rawMod = x % mod
  rawMod + (if (rawMod < 0) mod else 0)
}

在这里插入图片描述

3.2 Hash分区

HashPartitioner分区的原理：对于给定的key，计算其hashCode，并除以分区的个数取余，如果余数小于0，则用余数+分区的个数（否则加0），最后返回的值就是这个key所属的分区ID。
使用Hash分区的实操
在这里插入图片描述

3.3 Ranger分区

HashPartitioner分区弊端：可能导致每个分区中数据量的不均匀，极端情况下会导致某些分区拥有RDD的全部数据。
RangePartitioner作用：将一定范围内的数映射到某一个分区内，尽量保证每个分区中数据量的均匀，而且分区与分区之间是有序的，一个分区中的元素肯定都是比另一个分区内的元素小或者大，但是分区内的元素是不能保证顺序的。简单的说就是将一定范围内的数映射到某一个分区内。实现过程为：
第一步：先重整个RDD中抽取出样本数据，将样本数据排序，计算出每个分区的最大key值，形成一个Array[KEY]类型的数组变量rangeBounds；
第二步：判断key在rangeBounds中所处的范围，给出该key值在下一个RDD中的分区id下标；该分区器要求RDD中的KEY类型必须是可以排序的

3.4 自定义分区

要实现自定义的分区器，你需要继承 org.apache.spark.Partitioner 类并实现下面三个方法。
（1）numPartitions: Int:返回创建出来的分区数。
（2）getPartition(key: Any): Int:返回给定键的分区编号(0到numPartitions-1)。
（3）equals():Java 判断相等性的标准方法。这个方法的实现非常重要，Spark 需要用这个方法来检查你的分区器对象是否和其他分区器实例相同，这样 Spark 才可以判断两个 RDD 的分区方式是否相同。
需求：将相同后缀的数据写入相同的文件，通过将相同后缀的数据分区到相同的分区并保存输出来实现。
在这里插入图片描述
使用自定义的 Partitioner 是很容易的:只要把它传给 partitionBy() 方法即可。Spark 中有许多依赖于数据混洗的方法，比如 join() 和 groupByKey()，它们也可以接收一个可选的 Partitioner 对象来控制输出数据的分区方式。

四、数据的读取与保存

Spark的数据读取及数据保存可以从两个维度来作区分：文件格式以及文件系统。
文件格式分为：Text文件、Json文件、Csv文件、Sequence文件以及Object文件；
文件系统分为：本地文件系统、HDFS、HBASE以及数据库。

4.1 文件类数据读取与保存

4.1.1 Text文件

    def main(args: Array[String]): Unit = {

        val sparkConf: SparkConf = new SparkConf().setAppName("xxxx").setMaster("local[*]")
        val sc = new SparkContext(sparkConf)

        // 读取HDFS一个目录中的文件
        val textRDD: RDD[String] = sc.textFile("hdfs://hadoop:9000/user/xh/in2")

        val wordRdd = textRDD.flatMap {
            case line => {
                val arrayBuffer = new ArrayBuffer[(String, Int)]()
                val wordsList = line.split(" ")
                for (word <- wordsList)
                    arrayBuffer += ((word, 1))

                // arrayBuffer.toArray  这样会报错，polymorphic expression cannot be instantiated to expected type;
                // found   : [B >: (String, Int)]Array[B] required: TraversableOnce[?] arrayBuffer.toArray
                arrayBuffer.toList
            }
        }
        wordRdd.reduceByKey(_ + _).foreach(println)

        // 保存处理后的数据到HDFS文件
        wordRdd.reduceByKey(_ + _).saveAsTextFile("hdfs://hadoop:9000/user/xh/in3/wordCount.txt")
    }

4.1.2 Json文件

如果JSON文件中每一行就是一个JSON记录，那么可以通过将JSON文件当做文本文件来读取，然后利用相关的JSON库对每一条数据进行JSON解析。
注意：

使用RDD读取JSON文件处理很复杂，同时SparkSQL集成了很好的处理JSON文件的方式，所以应用中多是采用SparkSQL处理JSON文件。

package com.spark.learning

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

import scala.util.parsing.json.JSON

object WordCount {
    def main(args: Array[String]): Unit = {

        val sparkConf: SparkConf = new SparkConf().setAppName("xxxx").setMaster("local[*]")
        val sc = new SparkContext(sparkConf)

        // 读取HDFS一个目录中的文件
        val jsonRDD: RDD[String] = sc.textFile("C:\\Users\\xh\\Desktop\\app.json")

        val mapRDD = jsonRDD.map(JSON.parseFull)
        mapRDD.foreach{
            case item=>
                // Map(area -> sichuan, mid -> mid_411, ts -> 1.612506947681E12,
                // os -> andriod, appid -> gmall, itemid -> 39.0, pgid -> 18.0,
                // uid -> 191, evid -> addFavor, type -> event, npgid -> 3.0)
                println(item.get)
        }
    }
}

4.1.3 Sequence文件

SequenceFile文件是Hadoop用来存储二进制形式的key-value对而设计的一种平面文件(Flat File)。Spark 有专门用来读取 SequenceFile 的接口。在 SparkContext 中，可以调用 sequenceFile keyClass, valueClass。
注意：

SequenceFile文件只针对PairRDD

    def main(args: Array[String]): Unit = {

        val sparkConf: SparkConf = new SparkConf().setAppName("xxxx").setMaster("local[*]")
        val sc = new SparkContext(sparkConf)

        // 创建一个RDD，将RDD保存为Sequence文件
        val rdd: RDD[(String, Int)] = sc.makeRDD(Array(("a", 1), ("b", 2), ("c", 3), ("d", 4)))
        rdd.saveAsSequenceFile("hdfs://hadoop:9000/user/xh/in4/seqFile")

        // 读取HDFS一个目录中的Sequence文件
        val seqRDD = sc.sequenceFile[String, Int]("hdfs://hadoop:9000/user/xh/in4/seqFile")

        seqRDD.foreach(println)
    }

4.1.4 对象文件

对象文件是将对象序列化后保存的文件，采用Java的序列化机制。可以通过objectFileT 函数接收一个路径，读取对象文件，返回对应的 RDD，也可以通过调用saveAsObjectFile() 实现对对象文件的输出。因为是序列化所以要指定类型。

    def main(args: Array[String]): Unit = {

        val sparkConf: SparkConf = new SparkConf().setAppName("xxxx").setMaster("local[*]")
        val sc = new SparkContext(sparkConf)

        // 创建一个RDD，将RDD保存为Object文件
        val rdd: RDD[(String, Int)] = sc.makeRDD(Array(("a", 1), ("b", 2), ("c", 3), ("d", 4)))
        rdd.saveAsObjectFile("hdfs://hadoop:9000/user/xh/in4/objectFile02")

        // 读取HDFS一个目录中的Object文件 指定的无论是Int或String类型都能打印出来？
        val objectRDD = sc.objectFile[String]("hdfs://hadoop:9000/user/xh/in4/objectFile02")

        objectRDD.foreach(println)
    }

4.2 文件系统类数据读取与保存

4.2.1 HDFS

Spark的整个生态系统与Hadoop是完全兼容的,所以对于Hadoop所支持的文件类型或者数据库类型,Spark也同样支持.另外,由于Hadoop的API有新旧两个版本,所以Spark为了能够兼容Hadoop所有的版本,也提供了两套创建操作接口.对于外部存储创建操作而言,hadoopRDD和newHadoopRDD是最为抽象的两个函数接口,主要包含以下四个参数.

1）输入格式(InputFormat): 制定数据输入的类型,如TextInputFormat等,新旧两个版本所引用的版本分别是org.apache.hadoop.mapred.InputFormat和org.apache.hadoop.mapreduce.InputFormat(NewInputFormat)
2）键类型: 指定[K,V]键值对中K的类型
3）值类型: 指定[K,V]键值对中V的类型
4）分区值: 指定由外部存储生成的RDD的partition数量的最小值,如果没有指定,系统会使用默认值defaultMinSplits

注意:
其他创建操作的API接口都是为了方便最终的Spark程序开发者而设置的,是这两个接口的高效实现版本.例如,对于textFile而言,只有path这个指定文件路径的参数,其他参数在系统内部指定了默认值。

1.在Hadoop中以压缩形式存储的数据,不需要指定解压方式就能够进行读取,因为Hadoop本身有一个解压器会根据压缩文件的后缀推断解压算法进行解压.
2.如果用Spark从Hadoop中读取某种类型的数据不知道怎么读取的时候,上网查找一个使用map-reduce的时候是怎么读取这种这种数据的,然后再将对应的读取方式改写成上面的hadoopRDD和newAPIHadoopRDD两个类就行了

4.2.2 MySQL数据库连接

支持通过Java JDBC访问关系型数据库。需要通过JdbcRDD进行，示例如下:
（1）添加依赖

        <dependency>
            <groupId>mysql</groupId>
            <artifactId>mysql-connector-java</artifactId>
            <version>8.0.11</version>
        </dependency>

（2）Mysql读取：

package com.spark.learning

import java.sql.DriverManager
import org.apache.spark.rdd.{JdbcRDD, RDD}
import org.apache.spark.{SparkConf, SparkContext}


object WordCount {
    def main(args: Array[String]): Unit = {

        val sparkConf: SparkConf = new SparkConf().setAppName("xxxx").setMaster("local[*]")
        val sc = new SparkContext(sparkConf)

        // 定义连接mysql的参数
        val driver = "com.mysql.cj.jdbc.Driver"
        val url = "jdbc:mysql://localhost:3306/advert?rewriteBatchedStatements=true&useSSL=false&serverTimezone=GMT%2B8&allowPublicKeyRetrieval=true"
        val userName = "root"
        val passWd = "assiduity"

        // 创建JdbcRDD
        val rdd = new JdbcRDD(sc, () => {
            Class.forName(driver)
            DriverManager.getConnection(url, userName, passWd)
        },
            "select * from `ad_province_top3` where clickCount >= ? and clickCount <= ?;"
            , // 该方法有很大的局限性，sql必须有两个占位符，和下面的两个参数对应
            0 // 对应sql第一个占位符 下限
            ,
            10 //  对应sql第二个占位符 上限
            ,
            1 // 分区数
            ,
            rs => {
                // sql 查询的结果集，存储再ResultSet对象中，
                // 可以通过getXXX()方法获取，该方法传参可以是表的列名，也可以是列的序号（从1开始）
                (rs.getString("date")
                    , rs.getString("province")
                    , rs.getString("adid")
                    , rs.getString("clickCount"))
            }
        )

        // 打印结果
        println(rdd.count() + "count")
        rdd.foreach(println)

        sc.stop()
    }
}

(3) Mysql写入：

package com.spark.learning

import org.apache.spark.rdd.{JdbcRDD, RDD}
import org.apache.spark.{SparkConf, SparkContext}

object WordCount {

    def main(args: Array[String]): Unit = {

        val sparkConf: SparkConf = new SparkConf().setAppName("xxxx").setMaster("local[*]")
        val sc = new SparkContext(sparkConf)

        // 创建RDD
        val rdd: RDD[(String, String, Int, Int)] = sc.makeRDD(Array(("20210225", "3", 6, 2), ("20210225", "7", 57, 2), ("20210225", "3", 58, 2), ("20210225", "3", 27, 2)))
        
        // 向MYSQL数据库写入数据
        rdd.foreachPartition(insertDate)
        
        sc.stop()
    }

    def insertDate(iterator: Iterator[(String, String, Int, Int)]): Unit = {
        Class.forName("com.mysql.cj.jdbc.Driver").newInstance()
        val conn = java.sql.DriverManager.getConnection("jdbc:mysql://localhost:3306/advert?rewriteBatchedStatements=true&useSSL=false&serverTimezone=GMT%2B8&allowPublicKeyRetrieval=true"
            , "root"
            , "assiduity"
        )
        iterator.foreach(data => {
            val ps = conn.prepareStatement("insert into ad_province_top3 (date, province, adid, clickCount) values(?, ?, ?, ?)")
            ps.setString(1, data._1) // 设置sql第一个占位符为 data._1  类型为String
            ps.setString(2, data._2) // 设置sql第二个占位符为 data._2  类型为String
            ps.setInt(3, data._3) // 设置sql第三个占位符为 data._3  类型为 
            ps.setInt(4, data._4
            )
            ps.executeUpdate()
        })
    }
}

4.2.3 HBase数据库

由于 org.apache.hadoop.hbase.mapreduce.TableInputFormat 类的实现，Spark 可以通过Hadoop输入格式访问HBase。这个输入格式会返回键值对数据，其中键的类型为org. apache.hadoop.hbase.io.ImmutableBytesWritable，而值的类型为org.apache.hadoop.hbase.client.Result。
（1）添加依赖

<dependency>
	<groupId>org.apache.hbase</groupId>
	<artifactId>hbase-server</artifactId>
	<version>1.3.1</version>
</dependency>

<dependency>
	<groupId>org.apache.hbase</groupId>
	<artifactId>hbase-client</artifactId>
	<version>1.3.1</version>
</dependency>

（2）从HBase读取数据

import org.apache.hadoop.conf.Configuration
import org.apache.hadoop.hbase.HBaseConfiguration
import org.apache.hadoop.hbase.client.Result
import org.apache.hadoop.hbase.io.ImmutableBytesWritable
import org.apache.hadoop.hbase.mapreduce.TableInputFormat
import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}
import org.apache.hadoop.hbase.util.Bytes

object HBaseSpark {

  def main(args: Array[String]): Unit = {

    //创建spark配置信息
    val sparkConf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("Hbase")

    //创建SparkContext
    val sc = new SparkContext(sparkConf)

    //构建HBase配置信息
    val conf: Configuration = HBaseConfiguration.create()
    conf.set("hbase.zookeeper.quorum", "hadoop102,hadoop103,hadoop104")
    conf.set(TableInputFormat.INPUT_TABLE, "rddtable")

    //从HBase读取数据形成RDD
    val hbaseRDD: RDD[(ImmutableBytesWritable, Result)] = sc.newAPIHadoopRDD(
      conf,
      classOf[TableInputFormat],
      classOf[ImmutableBytesWritable],
      classOf[Result])

    val count: Long = hbaseRDD.count()
    println(count)

    //对hbaseRDD进行处理
    hbaseRDD.foreach {
      case (_, result) =>
        val key: String = Bytes.toString(result.getRow)
        val name: String = Bytes.toString(result.getValue(Bytes.toBytes("info"), Bytes.toBytes("name")))
        val color: String = Bytes.toString(result.getValue(Bytes.toBytes("info"), Bytes.toBytes("color")))
        println("RowKey:" + key + ",Name:" + name + ",Color:" + color)
    }

    //关闭连接
    sc.stop()
  }

}

(3）往HBase写入

def main(args: Array[String]) {
//获取Spark配置信息并创建与spark的连接
  val sparkConf = new SparkConf().setMaster("local[*]").setAppName("HBaseApp")
  val sc = new SparkContext(sparkConf)

//创建HBaseConf
  val conf = HBaseConfiguration.create()
  val jobConf = new JobConf(conf)
  jobConf.setOutputFormat(classOf[TableOutputFormat])
  jobConf.set(TableOutputFormat.OUTPUT_TABLE, "fruit_spark")

//构建Hbase表描述器
  val fruitTable = TableName.valueOf("fruit_spark")
  val tableDescr = new HTableDescriptor(fruitTable)
  tableDescr.addFamily(new HColumnDescriptor("info".getBytes))

//创建Hbase表
  val admin = new HBaseAdmin(conf)
  if (admin.tableExists(fruitTable)) {
    admin.disableTable(fruitTable)
    admin.deleteTable(fruitTable)
  }
  admin.createTable(tableDescr)

//定义往Hbase插入数据的方法
  def convert(triple: (Int, String, Int)) = {
    val put = new Put(Bytes.toBytes(triple._1))
    put.addImmutable(Bytes.toBytes("info"), Bytes.toBytes("name"), Bytes.toBytes(triple._2))
    put.addImmutable(Bytes.toBytes("info"), Bytes.toBytes("price"), Bytes.toBytes(triple._3))
    (new ImmutableBytesWritable, put)
  }

//创建一个RDD
  val initialRDD = sc.parallelize(List((1,"apple",11), (2,"banana",12), (3,"pear",13)))

//将RDD内容写到HBase
  val localData = initialRDD.map(convert)

  localData.saveAsHadoopDataset(jobConf)
}

第5章 RDD编程进阶

5.1 累加器

累加器用来对信息进行聚合，通常在向 Spark传递函数时，比如使用 map() 函数或者用 filter() 传条件时，可以使用驱动器程序中定义的变量，但是集群中运行的每个任务都会得到这些变量的一份新的副本，更新这些副本的值也不会影响驱动器中的对应变量。如果我们想实现所有分片处理时更新共享变量的功能，那么累加器可以实现我们想要的效果。

5.1.1 系统累加器

针对一个输入的日志文件，如果我们想计算文件中所有空行的数量，我们可以编写以下程序：

scala> val rdd = sc.makeRDD(Array("a","a","a","a","a","a","a","a","a","b","b","b","b","b","b","b","b","b","b"))
rdd: org.apache.spark.rdd.RDD[String] = ParallelCollectionRDD[2] at makeRDD at <console>:24

scala> val tmp = rdd.map(word => {
     |          if (word == "a") {
     |             aCount += 1
     |          }
     |          (word, 1)
     |       })
tmp: org.apache.spark.rdd.RDD[(String, Int)] = MapPartitionsRDD[3] at map at <console>:27

scala> tmp.reduceByKey(_+_)
res0: org.apache.spark.rdd.RDD[(String, Int)] = ShuffledRDD[4] at reduceByKey at <console>:26

scala> tmp.reduceByKey(_+_).collect
res1: Array[(String, Int)] = Array((a,9), (b,10))                               

scala> aCount.value
res2: Int = 9

累加器的用法如下所示。
通过在驱动器中调用SparkContext.accumulator(initialValue)方法，创建出存有初始值的累加器。返回值为 org.apache.spark.Accumulator[T] 对象，其中 T 是初始值 initialValue 的类型。Spark闭包里的执行器代码可以使用累加器的 += 方法(在Java中是 add)增加累加器的值。驱动器程序可以调用累加器的value属性(在Java中使用value()或setValue())来访问累加器的值。

注意：

工作节点上的任务不能访问累加器的值。从这些任务的角度来看，累加器是一个只写变量。
对于要在行动操作中使用的累加器，Spark只会把每个任务对各累加器的修改应用一次。因此，如果想要一个无论在失败还是重复计算时都绝对可靠的累加器，我们必须把它放在 foreach() 这样的行动操作中。转化操作中累加器可能会发生不止一次更新

5.1.2 自定义累加器

自定义累加器类型的功能在1.X版本中就已经提供了，但是使用起来比较麻烦，在2.0版本后，累加器的易用性有了较大的改进，而且官方还提供了一个新的抽象类：AccumulatorV2来提供更加友好的自定义类型累加器的实现方式。实现自定义类型累加器需要继承AccumulatorV2并至少覆写下例中出现的方法，下面这个累加器可以用于在程序运行过程中收集一些文本类信息，最终以Set[String]的形式返回。

package com.spark.learning

import java.util

import org.apache.spark.util.AccumulatorV2
import org.apache.spark.{SparkConf, SparkContext}

object WordCount {

    def main(args: Array[String]): Unit = {

        val sparkConf: SparkConf = new SparkConf().setAppName("xxxx").setMaster("local[*]")
        val sc = new SparkContext(sparkConf)

        val accum = new LogAccumulator

        // 创建RDD

        sc.register(accum, "logAccum")
        val sum = sc.parallelize(Array("1", "3", "8", "2c", "3c", "6", "7a"), 2).filter {
            line =>
                val pattern = """^-?(\d+)"""
                val flag = line.matches(pattern)
                if (!flag) {
                    accum.add(line)
                }
                flag
        }.map(_.toInt).reduce(_ + _)

        println("sum: " + sum)

        println(accum.value.getClass.getSimpleName)  // UnmodifiableSet 类型
        println(accum.value.size())

        for(v <- accum.value.toArray){
            println(v)
        }

        sc.stop()
    }


}

class LogAccumulator extends AccumulatorV2[String, java.util.Set[String]] {
    private val _logArray: java.util.Set[String] = new util.HashSet[String]()

    override def isZero: Boolean = {
        _logArray.isEmpty
    }

    override def reset(): Unit = {
        _logArray.clear()
    }

    override def add(v: String): Unit = {
        _logArray.add(v)
    }

    override def merge(other: AccumulatorV2[String, util.Set[String]]): Unit = {
        other match {
            case o => _logArray.addAll(o.value)
        }
    }

    override def value: util.Set[String] = {
        util.Collections.unmodifiableSet(_logArray)
    }

    override def copy(): AccumulatorV2[String, util.Set[String]] = {
        val newAcc = new LogAccumulator()
        _logArray.synchronized {
            newAcc._logArray.addAll(_logArray)
        }
        newAcc
    }
}

5.2 广播变量（调优策略）

广播变量用来高效分发较大的对象。向所有工作节点发送一个较大的只读值，以供一个或多个Spark操作使用。比如，如果你的应用需要向所有节点发送一个较大的只读查询表，甚至是机器学习算法中的一个很大的特征向量，广播变量用起来都很顺手。在多个并行操作中使用同一个变量，但是 Spark会为每个任务分别发送。

scala> val broadcastVar = sc.broadcast(Array(1, 2, 3))
broadcastVar: org.apache.spark.broadcast.Broadcast[Array[Int]] = Broadcast(35)

scala> broadcastVar.value
res33: Array[Int] = Array(1, 2, 3)

使用广播变量的过程如下：

(1) 通过对一个类型 T 的对象调用 SparkContext.broadcast 创建出一个 Broadcast[T] 对象。任何可序列化的类型都可以这么实现。
(2) 通过 value 属性访问该对象的值(在 Java 中为 value() 方法)。
(3) 变量只会被发到各个节点一次，应作为只读值处理(修改这个值不会影响到别的节点)。

第6章扩展

6.1 RDD相关概念关系

在这里插入图片描述
输入可能以多个文件的形式存储在HDFS上，每个File都包含了很多块，称为Block。当Spark读取这些文件作为输入时，会根据具体数据格式对应的InputFormat进行解析，一般是将若干个Block合并成一个输入分片，称为InputSplit，注意InputSplit不能跨越文件。随后将为这些输入分片生成具体的Task。InputSplit与Task是一一对应的关系。随后这些具体的Task每个都会被分配到集群上的某个节点的某个Executor去执行。

每个节点可以起一个或多个Executor。
每个Executor由若干core组成，每个Executor的每个core一次只能执行一个Task。
每个Task执行的结果就是生成了目标RDD的一个partiton。

注意: 这里的core是虚拟的core而不是机器的物理CPU核，可以理解为就是Executor的一个工作线程。而 Task被执行的并发度 = Executor数目 * 每个Executor核数。至于partition的数目：

对于数据读入阶段，例如sc.textFile，输入文件被划分为多少InputSplit就会需要多少初始Task。
在Map阶段partition数目保持不变。
在Reduce阶段，RDD的聚合会触发shuffle操作，聚合后的RDD的partition数目跟具体操作有关，例如repartition操作会聚合成指定分区数，还有一些算子是可配置的。

RDD在计算的时候，每个分区都会起一个task，所以rdd的分区数目决定了总的的task数目。申请的计算节点（Executor）数目和每个计算节点核数，决定了你同一时刻可以并行执行的task。
比如的RDD有100个分区，那么计算的时候就会生成100个task，你的资源配置为10个计算节点，每个两2个核，同一时刻可以并行的task数目为20，计算这个RDD就需要5个轮次。如果计算资源不变，你有101个task的话，就需要6个轮次，在最后一轮中，只有一个task在执行，其余核都在空转。如果资源不变，你的RDD只有2个分区，那么同一时刻只有2个task运行，其余18个核空转，造成资源浪费。这就是在spark调优中，增大RDD分区数目，增大任务并行度的做法。