Spark-核心编程（二）RDD转换算子

最新推荐文章于 2022-06-15 18:12:51 发布

魔笛Love

最新推荐文章于 2022-06-15 18:12:51 发布

阅读量208

点赞数

文章标签： spark 大数据

本文链接：https://blog.csdn.net/clearlxj/article/details/119344644

版权

**RDD的方法（算子）**分为两大类：

转换：功能的补充和封装，将旧的RDD包装成新的RDD（flatMap, map）

行动：出发任务的调度和作业的执行（collect）

RDD 转换算子

RDD 根据数据处理方式的不同将算子整体上分为 Value 类型、双 Value 类型和 Key-Value

分区不变原则：分区不变，数据转换之后的分区也不会改变

Value 类型

map

def map[U: ClassTag](f: T => U): RDD[U]

将处理的数据逐条进行映射转换,这里的转换可以是类型的转换,也可以是值的转换。

object TestTransform {

    def main(args: Array[String]): Unit = {
        val sparkConf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("Operator")
        val sc = new SparkContext(sparkConf)

        // 算子-map
        val rdd: RDD[Int] = sc.makeRDD(List(1, 2, 3, 4))

        // 转换函数
        def mapFunction(num: Int): Int = {
            num * 2
        }

        // val mapRdd: RDD[Int] = rdd.map(mapFunction)
        // val mapRdd: RDD[Int] = rdd.map((num: Int) => { num * 2 })
        val mapRdd: RDD[Int] = rdd.map(_ * 2)

        mapRdd.collect().foreach(println)
        // 2
        // 4
        // 6
        // 8

        sc.stop()
    }
}

object TestTransformMapPar {

    def main(args: Array[String]): Unit = {
        val sparkConf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("Operator")
        val sc = new SparkContext(sparkConf)

        // 算子-map
        // 1、rdd的计算一个分区内的数据是一个一个执行逻辑
        //     只有前面一个数据全部的逻辑执行完毕之后，才会执行下一个数据
        //     分区内数据的执行是有序的
        // val rdd: RDD[Int] = sc.makeRDD(List(1, 2, 3, 4), 1)

        // 2、不同分区之间的计算顺序是无序的
         val rdd: RDD[Int] = sc.makeRDD(List(1, 2, 3, 4), 2)

        val mapRdd: RDD[Int] = rdd.map(num => {
            println(">>>>>>>" + num)
            num
        })

        val mapRdd1: RDD[Int] = mapRdd.map(num => {
            println(">>>>>>>" + num)
            num
        })

        mapRdd1.collect()

        sc.stop()
    }
}

mapPartitions

def mapPartitions[U: ClassTag](
f: Iterator[T] => Iterator[U],
preservesPartitioning: Boolean = false): RDD[U]

将待处理的数据以分区为单位发送到计算节点进行处理,这里的处理是指可以进行任意的处理,哪怕是过滤数据。

object TestTransformMapPartitions {

    def main(args: Array[String]): Unit = {
        val sparkConf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("Operator")
        val sc = new SparkContext(sparkConf)

        // 算子-mapPartitions
        val rdd: RDD[Int] = sc.makeRDD(List(1, 2, 3, 4), 2)

        // 一次性拿一个分区的数据来进行批处理，但是会将整个分区的数据加载到内存进行引用
        // 处理完的数据是不会备释放掉的，存在对象的引用
        // 在内存较小，数据量较大的场合下，容易出现内存溢出
        val mpRdd: RDD[Int] = rdd.mapPartitions(iter => {
            println("======")
            iter.map(_ * 2)
        })

        mpRdd.collect().foreach(println)
//        ======
//        ======
//        2
//        4
//        6
//        8

        sc.stop()
    }
}

获取每个分区里数据的最大值

object TestTransformMapPartitions1 {

    def main(args: Array[String]): Unit = {
        val sparkConf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("Operator")
        val sc = new SparkContext(sparkConf)

        // 算子-mapPartitions
        val rdd: RDD[Int] = sc.makeRDD(List(1, 2, 3, 4), 2)

        // 【1, 2】【3, 4】
        // 【2】【4】
        val mpRdd: RDD[Int] = rdd.mapPartitions((iter: Iterator[Int]) => {
            List(iter.max).iterator
        })

        mpRdd.collect().foreach(println)

        sc.stop()
    }
}

map 和 mapPartitions 的区别

数据处理角度：Map 算子是分区内一个数据一个数据的执行,类似于串行操作。而 mapPartitions 算子是以分区为单位进行批处理操作。

功能的角度：Map 算子主要目的将数据源中的数据进行转换和改变。但是不会减少或增多数据。MapPartitions 算子需要传递一个迭代器,返回一个迭代器,没有要求的元素的个数保持不变,所以可以增加或减少数据

性能的角度：Map 算子因为类似于串行操作,所以性能比较低,而是 mapPartitions 算子类似于批处理,所以性能较高。但是 mapPartitions 算子会长时间占用内存,那么这样会导致内存可能不够用,出现内存溢出的错误。所以在内存有限的情况下,不推荐使用，而是使用 map 操作，因为完成比完美更重要

mapPartitionsWithIndex

def mapPartitionsWithIndex[U: ClassTag](
f: (Int, Iterator[T]) => Iterator[U],
preservesPartitioning: Boolean = false): RDD[U]

将待处理的数据以分区为单位发送到计算节点进行处理,这里的处理是指可以进行任意的处理,哪怕是过滤数据,在处理时同时可以获取当前分区索引。

object TestTransformMapPartitionsIndex {

    def main(args: Array[String]): Unit = {
        val sparkConf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("Operator")
        val sc = new SparkContext(sparkConf)

        // 算子-mapPartitionsWithIndex
        // 【1, 2】【3, 4】
        val rdd: RDD[Int] = sc.makeRDD(List(1, 2, 3, 4), 2)

        val mpiRDD: RDD[Int] = rdd.mapPartitionsWithIndex((index, iter) => {
            if (index == 1) {
                iter
            } else {
                Nil.iterator
            }
        })

        mpiRDD.collect().foreach(println)
//        3
//        4

        sc.stop()
    }
}

flatMap

def flatMap[U: ClassTag](f: T => TraversableOnce[U]): RDD[U]

将处理的数据进行扁平化后再进行映射处理,所以算子也称之为扁平映射

object TestTransformFlatMap {

    def main(args: Array[String]): Unit = {
        val sparkConf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("Operator")
        val sc = new SparkContext(sparkConf)

        // 算子-flatMap
        val rdd = sc.makeRDD(
            List(
                List(1, 2),
                3,
                List(4, 5)
            )
        )

        val flatRDD = rdd.flatMap(data => {
            data match {
                case list: List[_] => list
                case x => List(x)
            }
        })

        flatRDD.collect().foreach(println)
//        1
//        2
//        3
//        4
//        5

        sc.makeRDD(List("hello scala", "hello spark"))
            .flatMap(_.split(" "))
            .collect()
            .foreach(println)
//        hello
//        scala
//        hello
//        spark

        sc.stop()
    }
}

glom

def glom(): RDD[Array[T]]

将同一个分区的数据直接转换为相同类型的内存数组进行处理,分区不变

object TestTransformGlom {

    def main(args: Array[String]): Unit = {
        val sparkConf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("Operator")
        val sc = new SparkContext(sparkConf)

        // 算子-glom
        val rdd: RDD[Int] = sc.makeRDD(List(1, 2, 3, 4), 2)
        val glomRdd: RDD[Array[Int]] = rdd.glom()

        glomRdd.collect().foreach(data => { println(data.mkString(",")) })
//        1,2
//        3,4

        // 求分区的最大值之和
        // 【1,2】【3,4】
        // 【2】【4】
        // 【6】
        val glomRdd1: RDD[Array[Int]] = rdd.glom()

        val maxRdd: RDD[Int] = glomRdd1.map(_.max)

        println(maxRdd.collect().sum)
//        6

        sc.stop()
    }
}

groupBy

def groupBy[K](f: T => K)(implicit kt: ClassTag[K]): RDD[(K, Iterable[T])]

将数据根据指定的规则进行分组, 分区默认不变,但是数据会被打乱重新组合,我们将这样的操作称之为 shuffle。极限情况下,数据可能被分在同一个分区中。一个组的数据在一个分区中,但是并不是说一个分区中只有一个组

在这里插入图片描述

object TestTransformGroupBy {

    def main(args: Array[String]): Unit = {
        val sparkConf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("Operator")
        val sc = new SparkContext(sparkConf)

        // 算子-groupBy
        // groupBy会将数据源中的每一个数据进行分组判断，根据返回的分组key进行分组
        // 相同的key值的数据会放置到同一个组中
        sc.makeRDD(List(1, 2, 3, 4))
            .groupBy(_ % 2)
            .collect().foreach(println)
//        (0,CompactBuffer(2, 4))
//        (1,CompactBuffer(1, 3))

        // 根据首字符分组
        sc.makeRDD(List("hello", "Hello", "word", "spark", "scala"), 2)
            .groupBy(_.charAt(0))
            .collect().foreach(println)
//        (H,CompactBuffer(Hello))
//        (s,CompactBuffer(spark, scala))
//        (h,CompactBuffer(hello))
//        (w,CompactBuffer(word)
        
        // 分组和分区没有必然的关系

        sc.stop()
    }
}

filter

def filter(f: T => Boolean): RDD[T]

将数据根据指定的规则进行筛选过滤,符合规则的数据保留,不符合规则的数据丢弃。当数据进行筛选过滤后,分区不变,但是分区内的数据可能不均衡,生产环境下,可能会出现数据倾斜。

// 获取奇数
sc.makeRDD(List(1, 2, 3, 4))
.filter(_ % 2 != 0)
.collect().foreach(println)

sample

def sample(
withReplacement: Boolean, // true为抽取放回 false不放回
fraction: Double,
seed: Long = Utils.random.nextLong): RDD[T]

根据指定的规则从数据集中抽取数据

object TestTransformSample {

    def main(args: Array[String]): Unit = {
        val sparkConf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("Operator")
        val sc = new SparkContext(sparkConf)

        // 算子-sample
        val rdd: RDD[Int] = sc.makeRDD(List(1, 2, 3, 4, 5, 6, 7, 8, 9))

        // sample算子有三个参数
        // 1、第一个参数表示，抽取数据后是时候将数据返回false为丢弃，
        //    伯努利算法:又叫 0、1 分布。例如扔硬币,要么正面,要么反面。
        //    根据种子和随机算法算出一个数和第二个参数设置几率比较,小于第二个参数要,大于不要
        // 2、第二个参数表示， 抽取不放回的话，数据源中每条数据被抽取的概率，基准值的概念，抽取的几率,范围在[0,1]之间,0:全不取;1:全取;
        // 3、第三个参数表示，抽取数据时随机算法的种子，如果不传递第三个参数，那么使用的是当前系统时间，如果传递了，那么程序每次执行的结果都是一样的
        println(rdd.sample(false, 0.4)
                .collect().mkString(","))

        println("------------------")

        // 1、第一个参数表示，抽取数据后是时候将数据返回true为放回
        // 2、第二个参数表示，重复数据的几率,范围大于等于 0.表示每一个元素被期望抽取到的次数，实际可能被抽到0次、1次、2次或多次
        // 3、第三个参数表示，抽取数据时随机算法的种子，如果不传递第三个参数，那么使用的是当前系统时间，如果传递了，那么程序每次执行的结果都是一样的
        println(rdd.sample(true, 2)
            .collect().mkString(","))

        sc.stop()
    }
}

distinct

def distinct()(implicit ord: Ordering[T] = null): RDD[T]
def distinct(numPartitions: Int)(implicit ord: Ordering[T] = null): RDD[T]

将数据集中重复的数据去重

// 算子-distinct
sc.makeRDD(List(1, 2, 3, 4, 1, 3, 4, 1))
    .distinct()
    .collect().foreach(println)

// scala自带的List的去重底层用到的是hashset
// distinct的原理 map(x => (x, null)).reduceByKey((x, _) => x, numPartitions).map(_._1)

coalesce

def coalesce(
    numPartitions: Int, 
    shuffle: Boolean = false,
	partitionCoalescer: Option[PartitionCoalescer] = Option.empty)(implicit ord: Ordering[T] = null): RDD[T]

根据数据量缩减分区,用于大数据集过滤后,提高小数据集的执行效率当 spark 程序中,存在过多的小任务的时候,可以通过 coalesce 方法,收缩合并分区,减少分区的个数,减小任务调度成本

// 算子-coalesce
sc.makeRDD(List(1, 2, 3, 4), 4)
	.coalesce(2)
	.saveAsTextFile("output")
// 结果是12在一个文件中，34在一个文件中

sc.makeRDD(List(1, 2, 3, 4, 5, 6), 3)
	.coalesce(2)
	.saveAsTextFile("output2")
// 结果是12在一个文件中，3456在一个文件中
// coalesce方法默认情况下不会讲分区的数据打乱重新组合
// 这种情况下缩减分区可能会导致数据不均衡，出现数据倾斜
// 如果想要数据均衡，可以进行shuffle处理，因为会打乱，所以最终数据结果会是随机的
sc.makeRDD(List(1, 2, 3, 4, 5, 6), 3)
	.coalesce(2, true)
	.saveAsTextFile("output3")


// coalesce算子可以扩大分区，但是如果不进行shuffle操作，是没有意义的，不起作用
// 如果想要扩大分区，需要使用shuffle操作
// 缩减分区：coalesce，如果想要数据均衡，可以采用shuffle
// 扩大分区： repartition，它的底层就是coalesce，且会shuffle
sc.makeRDD(List(1, 2, 3, 4, 5, 6), 2).coalesce(3, true).saveAsTextFile("output")
sc.makeRDD(List(1, 2, 3, 4, 5, 6), 2).coalesce(3, true).saveAsTextFile("output")

repartition

def repartition(numPartitions: Int)(implicit ord: Ordering[T] = null): RDD[T]

该操作内部其实执行的是 coalesce 操作,参数 shuffle 的默认值为 true。无论是将分区数多的RDD 转换为分区数少的 RDD,还是将分区数少的 RDD 转换为分区数多的 RDD,repartition操作都可以完成,因为无论如何都会经 shuffle 过程。

sortBy

def sortBy[K](
    f: (T) => K,
    ascending: Boolean = true,
    numPartitions: Int = this.partitions.length)(implicit ord: Ordering[K], ctag: ClassTag[K]): RDD[T]

该操作用于排序数据。在排序之前,可以将数据通过 f 函数进行处理,之后按照 f 函数处理的结果进行排序,默认为升序排列。排序后新产生的 RDD 的分区数与原 RDD 的分区数一致。中间存在 shuffle 的过程

// 算子-sortBy
// sortBy可以根据指定的规则对数据源中的数据进行排序，默认为升序，可以通过第二个参数进行设置，设置为false为降序
// sortBy默认情况下，不会改变分区个数，但是中间有shuffle操作
sc.makeRDD(List(1, 6, 4, 2, 5, 3), 2)
    .sortBy(num => num)
    .saveAsTextFile("output")
// 123在一个文件，456在一个文件中

双Value类型

双值类型，即两个数据源进行关联操作

intersection

def intersection(other: RDD[T]): RDD[T]

对源 RDD 和参数 RDD 求交集后返回一个新的 RDD

union

def union(other: RDD[T]): RDD[T]

对源 RDD 和参数 RDD 求并集后返回一个新的 RDD

subtract

def subtract(other: RDD[T]): RDD[T]

以一个 RDD 元素为主,去除两个 RDD 中重复元素,将其他元素保留下来。求差集

zip

def zip[U: ClassTag](other: RDD[U]): RDD[(T, U)]

将两个 RDD 中的元素,以键值对的形式进行合并。其中,键值对中的 Key 为第 1 个 RDD中的元素,Value 为第 2 个 RDD 中的相同位置的元素。

object TestTransformDoubleValue {

    def main(args: Array[String]): Unit = {
        val sparkConf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("Operator")
        val sc = new SparkContext(sparkConf)

        // 算子-双value类型
        // 交集、并集和差集要求两个数据源的数据类型保持一致
        // 拉链操作两个的数据类型可以一致
        val rdd1: RDD[Int] = sc.makeRDD(List(1, 2, 3, 4))
        val rdd2: RDD[Int] = sc.makeRDD(List(3, 4, 5, 6))

        // 交集
        println(rdd1.intersection(rdd2).collect().mkString(","))
        // 3,4

        // 并集
        println(rdd1.union(rdd2).collect().mkString(","))
        // 1,2,3,4,3,4,5,6

        // 差集
        println(rdd1.subtract(rdd2).collect().mkString(","))
        // 1,2
        println(rdd2.subtract(rdd1).collect().mkString(","))
        // 6,5

        // 拉链
        // 拉链操作的两个数据源要求分区数量要保持一致
        // 拉链操作的两个数据源的每一个分区的数量要保持一致
        println(rdd1.zip(rdd2).collect().mkString(","))
        // (1,3),(2,4),(3,5),(4,6)
        println(rdd2.zip(rdd1).collect().mkString(","))
        // (3,1),(4,2),(5,3),(6,4)

        sc.stop()
    }
}

Key - Value 类型

partitionBy

def partitionBy(partitioner: Partitioner): RDD[(K, V)]

将数据按照指定 Partitioner 重新进行分区。Spark 默认的分区器是 HashPartitioner

// 算子-partitionBy
val rdd = sc.makeRDD(List(1, 2, 3, 4), 2).map(_ -> 1)
// 隐式转换（二次编译） RDD => PairRDDFunctions

// partitionBy根据指定的分区规则对数据进行重分区
// 当前分区规则和重分区规则类型和数量完全相同时，不会进行重分区
// 除了HashPartitioner，还有一个是RangePartitioner多用用于排序使用，以及自定义
rdd.partitionBy(new HashPartitioner(2)).saveAsTextFile("output")

reduceByKey

def reduceByKey(func: (V, V) => V): RDD[(K, V)]
def reduceByKey(func: (V, V) => V, numPartitions: Int): RDD[(K, V)]

可以将数据按照相同的 Key 对 Value 进行聚合

// 算子-reduceByKey
val rdd = sc.makeRDD(List(
    ("a", 1), ("a", 2), ("a", 3), ("b", 4)
))

// reduceKey：相同的key的数据进行value的聚合操作
// scala语言中一般的聚合操作都是两两聚合，spark是基于scala开发的，所以也是两两聚合
// reduceByKey中如果key的数据只有一个的话，是不会参与运算的
rdd.reduceByKey(_ + _).collect().foreach(println)
//        (a,6)
//        (b,4)

groupByKey

def groupByKey(): RDD[(K, Iterable[V])]
def groupByKey(numPartitions: Int): RDD[(K, Iterable[V])]
def groupByKey(partitioner: Partitioner): RDD[(K, Iterable[V])]

将数据源的数据根据 key 对 value 进行分组

reduceByKey 和 groupByKey 的区别

从 shuffle 的角度:reduceByKey 和 groupByKey 都存在 shuffle 的操作,但是 reduceByKey可以在 shuffle 前对分区内相同 key 的数据进行预聚合(combine)功能,这样会减少落盘的数据量,而 groupByKey 只是进行分组,不存在数据量减少的问题,reduceByKey 性能比较高。

从功能的角度:reduceByKey 其实包含分组和聚合的功能。GroupByKey 只能分组,不能聚合,所以在分组聚合的场合下,推荐使用 reduceByKey,如果仅仅是分组而不需要聚合。那么还是只能使用 groupByKey
在这里插入图片描述

groupByKey会导致数据打乱重组，存在shuffle操作
在这里插入图片描述

reduceByKey支持分区内预聚合功能，可以有效减少shuffle时落盘的数据量

reduceByKey分区内和分区间计算规则是完全相同的

spark中，shuffle操作必须落盘处理，不能在内存中数据等待，否则会导致内存溢出，因此shuffle操作的性能非常低

aggregateByKey

def aggregateByKey[U: ClassTag](zeroValue: U)(seqOp: (U, V) => U,combOp: (U, U) => U): RDD[(K, U)]

将数据根据不同的规则进行分区内计算和分区间计算

object TestTransformAggregateByKey {

    def main(args: Array[String]): Unit = {
        val sparkConf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("Operator")
        val sc = new SparkContext(sparkConf)

        // 算子-reduceByKey
        val rdd = sc.makeRDD(List(
            ("a", 1), ("a", 2), ("a", 3), ("a", 4)
        ), 2)

        // (a, 【1, 2】), (a, 【3, 4】)
        // (a, 2), (a, 4)
        // (a, 6)

        // aggregateByKey存在函数的柯里化，有两个参数列表
        // 第一个参数列表，需要传递一个参数，表示初始值，主要用于当遇到第一个key的时候，和value进行分区计算
        // 第二个参数列表需要传递两个参数
        //         第一个参数表示分区内计算规则
        //         第二个参数表示分区间计算规则
        // 最终的返回结果应该和初始值的类型保存一致
        rdd.aggregateByKey(0 )(
            (x, y) => math.max(x, y),
            (x, y) => x + y
        ).collect.foreach(println)
        // (a,6)

        rdd.aggregateByKey(0 )(
            (x, y) => x + y,
            (x, y) => x + y
        ).collect.foreach(println)
        // (a,14)

        // 如果聚合计算时，分区内和分区间计算规则相同，spark提供了简化的方法
        rdd.foldByKey(0)(_ + _).collect.foreach(println)
        // (a,14)

        // 获取相同key的数据的平均值
        rdd.aggregateByKey((0, 0))(
            (t, v) => {
                (t._1 + v, t._2 + 1)
            },
            (t1, t2) => {
                (t1._1 + t2._1, t1._2 + t2._2)
            }
        ).mapValues {
            case (num, count) => num / count
        }.collect.foreach(println)
        // (a,2)

        // combineByKey方法需要三个参数
        // 第一个参数表示： 将相同key的第一个数据进行结构的转换，实现操作
        // 第二个参数表示： 分区内的计算规则
        // 第三个参数表示： 分区间的计算规则
        rdd.combineByKey(
            v => (v, 1),
            (t: (Int, Int), v) => {
                (t._1 + v, t._2 + 1)
            },
            (t1: (Int, Int), t2: (Int, Int)) => {
                (t1._1 + t2._1, t1._2 + t2._2)
            }
        ).mapValues {
            case (num, count) => num / count
        }.collect.foreach(println)
        // (a,2)

        sc.stop()
    }
}

foldByKey

def foldByKey(zeroValue: V)(func: (V, V) => V): RDD[(K, V)]

当分区内计算规则和分区间计算规则相同时,aggregateByKey 就可以简化为 foldByKey

combineByKey

def combineByKey[C](
    createCombiner: V => C,
    mergeValue: (C, V) => C,
    mergeCombiners: (C, C) => C): RDD[(K, C)]

最通用的对 key-value 型 rdd 进行聚集操作的聚集函数(aggregation function)。类似于aggregate(),combineByKey()允许用户返回值的类型与输入不一致

reduceByKey、foldByKey、aggregateByKey、combineByKey 的区别

reduceByKey: 相同 key 的第一个数据不进行任何计算,分区内和分区间计算规则相同

FoldByKey: 相同 key 的第一个数据和初始值进行分区内计算,分区内和分区间计算规则相同

AggregateByKey:相同 key 的第一个数据和初始值进行分区内计算,分区内和分区间计算规则可以不相同

CombineByKey:当计算时,发现数据结构不满足要求时,可以让第一个数据转换结构。分区内和分区间计算规则不相同

object TestTransformReduceByKey1 {

    def main(args: Array[String]): Unit = {
        val sparkConf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("Operator")
        val sc = new SparkContext(sparkConf)

        // 算子-reduceByKey
        val rdd = sc.makeRDD(List(
            ("a", 1), ("a", 2), ("a", 3), ("b", 4)
        ), 2)

        /**
         * combineByKeyWithClassTag[V](
         *      (v: V) => v,  // 第一个值不会参与计算
         *      func,         // 分区内处理规则
         *      func          // 分区间处理规则
         * )
         */
        rdd.reduceByKey(_ + _)

        /**
         * combineByKeyWithClassTag[U](
         *      (v: V) => cleanedSeqOp(createZero(), v), // 初始值和第一个key的value值进行的分区内数据操作
         *      cleanedSeqOp,  // 分区内处理规则
         *      combOp         // 分区间处理规则
         * )
         */
        rdd.aggregateByKey(0)(_ + _, _ + _)

        /**
         * combineByKeyWithClassTag[V](
         *      (v: V) => cleanedFunc(createZero(), v), // 初始值和第一个key的value值进行的分区内数据操作
         *      cleanedFunc,  // 分区内处理规则
         *      cleanedFunc   // 分区间处理规则
         * )
         */
        rdd.foldByKey(0)(_ + _)

        /**
         * combineByKeyWithClassTag(
         *      createCombiner, // 相同key的第一条数据进行的处理函数
         *      mergeValue,     // 表示分区内数据的处理函数
         *      mergeCombiners  // 表示分区间数据的处理函数
         * )
         */
        rdd.combineByKey(v => v, (x: Int, y) => x + y, (x: Int, y: Int) => x + y)


        sc.stop()
    }
}

sortByKey

def sortByKey(
    ascending: Boolean = true, 
    numPartitions: Int = 
    self.partitions.length): RDD[(K, V)]

在一个(K,V)的 RDD 上调用,K 必须实现 Ordered 接口(特质),返回一个按照 key 进行排序的

object TestTransformSortByKey {

    def main(args: Array[String]): Unit = {
        val sparkConf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("Operator")
        val sc = new SparkContext(sparkConf)

        // 算子-sortByKey
        val rdd = sc.makeRDD(List(
            ("c", 1), ("a", 2), ("d", 3), ("e", 4)
        ))

        rdd.sortByKey().collect.foreach(println)
//        (a,2)
//        (c,1)
//        (d,3)
//        (e,4)

        sc.makeRDD(List(
            (new User("a", 13), 1),
            (new User("b", 67), 2),
            (new User("v", 33), 3),
            (new User("c", 23), 4)
        )).sortByKey().collect().foreach((t: (User, Int)) => println(t._1.toString))
//        name is b age is 67
//        name is v age is 33
//        name is c age is 23
//        name is a age is 13

        sc.stop()
    }
}


class User(var name: String, var age: Int) extends Ordered[User] with Serializable {
    override def compare(that: User): Int = {
        if (age > that.age) {
            -1
        } else if (age < that.age) {
            1
        } else {
            0
        }
    }

    override def toString: String = {
        "name is " + name + " age is " + age
    }
}

join

def join[W](other: RDD[(K, W)]): RDD[(K, (V, W))]

在类型为(K,V)和(K,W)的 RDD 上调用,返回一个相同 key 对应的所有元素连接在一起的(K,(V,W))的 RDD，相当于内连接

// 算子-join
val rdd1 = sc.makeRDD(List(
    ("a", 1), ("b", 2), ("c", 3), ("d", 3), ("a", 3)
))
val rdd2 = sc.makeRDD(List(
    ("a", 5), ("c", 7), ("b", 6)
))

// join：两个不同数据源的数据，相同的key的value会连接在一起，形成元组
//       如果两个数据源中key没有匹配上，那么数据不会出现在结果中
//       如果两个数据源中key有多个相同的，会依次匹配，可能会出现笛卡尔乘积，数据量会几何性增长，会导致性能下降
// 能不用join就不用
rdd1.join(rdd2).collect.foreach(println)
//        (a,(1,5))
//        (a,(3,5))
//        (b,(2,6))
//        (c,(3,7))

leftOuterJoin

def leftOuterJoin[W](other: RDD[(K, W)]): RDD[(K, (V, Option[W]))]

类似于 SQL 语句的左外连接

val rdd1 = sc.makeRDD(List(
    ("a", 1), ("b", 2), ("c", 3), ("d", 3), ("a", 3)
))
val rdd2 = sc.makeRDD(List(
    ("a", 5), ("c", 7), ("b", 6), ("e", 4)
))

// leftJoin rightJoin
rdd1.leftOuterJoin(rdd2).collect.foreach(println)
//        (a,(1,Some(5)))
//        (a,(3,Some(5)))
//        (b,(2,Some(6)))
//        (c,(3,Some(7)))
//        (d,(3,None))
rdd2.leftOuterJoin(rdd1).collect.foreach(println)
//        (a,(5,Some(3)))
//        (b,(6,Some(2)))
//        (c,(7,Some(3)))
//        (e,(4,None))

cogroup

def cogroup[W](other: RDD[(K, W)]): RDD[(K, (Iterable[V], Iterable[W]))]

在类型为(K,V)和(K,W)的 RDD 上调用,返回一个(K,(Iterable,Iterable))类型的 RDD

object TestTransformCogroup {

    def main(args: Array[String]): Unit = {
        val sparkConf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("Operator")
        val sc = new SparkContext(sparkConf)

        // 算子-join
        val rdd1 = sc.makeRDD(List(
            ("a", 1), ("b", 2), ("c", 3), ("d", 3), ("a", 3)
        ))
        val rdd2 = sc.makeRDD(List(
            ("a", 5), ("c", 7), ("b", 6), ("e", 4)
        ))

        // cogroup: connect + group
        // 这个最多可以连接三个其他的数据源
        rdd1.cogroup(rdd2).collect.foreach(println)
//        (a,(CompactBuffer(1, 3),CompactBuffer(5)))
//        (b,(CompactBuffer(2),CompactBuffer(6)))
//        (c,(CompactBuffer(3),CompactBuffer(7)))
//        (d,(CompactBuffer(3),CompactBuffer()))
//        (e,(CompactBuffer(),CompactBuffer(4)))


        sc.stop()
    }
}

案例实操

数据：agent.log:时间戳,省份,城市,用户,广告,中间字段使用空格分隔。

需求：统计出每一个省份每个广告被点击数量排行的 Top3

// 1、获取原始数据：时间戳,省份,城市,用户,广告
val rdd = sc.textFile("datas/spark-core/agent.log")

// 2、将原始数据进行结构的转换，方便统计
//    时间戳,省份,城市,用户,广告 => ((省份, 广告), 1)
val rddMap: RDD[((String, String), Int)] = rdd.map(str => {
    val data: Array[String] = str.split(" ")
    ((data(1), data(4)), 1)
})

// 3、讲转换结构后的数据进行分组聚合
//   ((省份, 广告), 1) => ((省份, 广告), sum)
val rddReduce = rddMap.reduceByKey(_ + _)

// 4、将聚合的结果进行结构的转换
//   ((省份, 广告), 1) => (省份, (广告, sum))
val newMapRdd: RDD[(String, (String, Int))] = rddReduce.map {
    case ((prv, ad), sum) => {
        (prv, (ad, sum))
    }
}

// 5、讲转换结构后的数据根据省份进行分组
//   (省份, 【(广告A, sumA), (广告B, sumB)】)
val groupRdd: RDD[(String, Iterable[(String, Int)])] = newMapRdd.groupByKey()

// 6、将分组后的数据组内排序（降序），取前三名
val result: RDD[(String, List[(String, Int)])] = groupRdd.mapValues(iter => {
    iter.toList.sortBy(_._2).reverse.take(3)
})

// 7、采集数据打印在控制台
result.collect.foreach(println)
//        (4,List((12,25), (16,22), (2,22)))
//        (8,List((2,27), (20,23), (11,22)))
//        (6,List((16,23), (24,21), (27,20)))
//        (0,List((2,29), (24,25), (26,24)))
//        (2,List((6,24), (21,23), (29,20)))
//        (7,List((16,26), (26,25), (1,23)))
//        (5,List((14,26), (12,21), (21,21)))
//        (9,List((1,31), (28,21), (0,20)))
//        (3,List((14,28), (28,27), (1,25)))
//        (1,List((3,25), (6,23), (5,22)))