Spark常用算子总结

最新推荐文章于 2024-05-28 22:46:39 发布

最新推荐文章于 2024-05-28 22:46:39 发布

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Spark常用算子总结

1.map、flatMap、distinctmap说明：将一个RDD中的每个数据项，通过map中的函数映射变成为一个新的元素，输入分区与输入分区一对一。即：有多少个输入分区，就有多少个输出分区。flatMap说明：同Map算子，最后将所有元素放到同一集合中：distinct说明：将RDD中重复元素做去重处理注意：针对Array[String]类型，将String对象视为字符串数组sc...
复制链接

扫一扫

Spark常用算子总结

scala> val rdd1 = rdd.map(x=>x.split(" ")) scala> rdd1.collect Array[Array[String]] = Array(Array(hello, world), Array(how, are, you?), Array(ni, hao), Array(hello, tom))

scala> val rdd2 = rdd1.flatMap(x=>x) //压扁操作 rdd2: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[3] at flatMap at <console>:28

scala> rdd2.collect res1: Array[String] = Array(hello, world, how, are, you?, ni, hao, hello, tom)

scala> rdd2.flatMap(x=>x).collect res3: Array[Char] = Array(h, e, l, l, o, w, o, r, l, d, h, o, w, a, r, e, y, o, u, ?, n, i, h, a, o, h, e, l, l, o, t, o, m)

scala> val rdd3 = rdd2.distinct rdd3: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[7] at distinct at <console>:30

scala> rdd3.collect res4: Array[String] = Array(are, tom, how, you?, hello, hao, world, ni)

repartition底层源码： def repartition(numPartitions: Int)(implicit ord: Ordering[T] = null): RDD[T] = withScope { coalesce(numPartitions, shuffle = true) } 底层调用coalesce方法，shuffle为true

查看默认rdd分区数 scala> rdd.partitions.size res4: Int = 2

默认分区2个,往小了分Yes 修改rdd分区数，并生成新的rdd scala> val rdd4 = rdd.coalesce(1) rdd4: org.apache.spark.rdd.RDD[String] = CoalescedRDD[8] at coalesce at <console>:26

scala> rdd4.partitions.size res10: Int = 1

默认分区2个,往大了分NO scala> val rdd5 = rdd.coalesce(5) rdd5: org.apache.spark.rdd.RDD[String] = CoalescedRDD[9] at coalesce at <console>:26

scala> rdd5.partitions.size res12: Int = 2

默认分区2个,往大了分 增加属性shuffle设为true scala> val rdd5 = rdd.coalesce(5,true) rdd5: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[13] at coalesce at <console>:26

scala> rdd5.partitions.size res13: Int = 5

再分区 repartition ，可增可减分区 scala> val rdd6 = rdd5.repartition(8) rdd6: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[11] at repartition at <console>:34

scala> rdd6.partitions.size res6: Int = 8

scala> rdd1(0).collect res0: Array[Int] = Array(1, 5)

scala> rdd1(1).collect res1: Array[Int] = Array()

scala> rdd1(2).collect res2: Array[Int] = Array(2, 3, 4, 6, 7) rdd重分区 ，按权重分配

4.glom 说明：返回每个分区中的数据项 val rdd = sc.parallelize(List(1,2,3,4,5,6,7,8,9)) rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[0] at parallelize at <console>:24

scala> rdd.glom.collect res0: Array[Array[Int]] = Array(Array(1, 2, 3, 4, 5, 6, 7, 8, 9))

5.union:并集 将两个RDD进行合并，不去重 scala> val rdd = sc.parallelize(Array(9,8,7,6,5,4,3,2)) rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[4] at parallelize at <console>:24

val rdd1 = sc.parallelize(List(1,2,3,4,5,6,7,8,9)) rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[3] at parallelize at <console>:24

scala> rdd.union(rdd1).collect res3: Array[Int] = Array(9, 8, 7, 6, 5, 4, 3, 2, 1, 2, 3, 4, 5, 6, 7, 8, 9)

scala> rdd1.union(rdd).collect res4: Array[Int] = Array(1, 2, 3, 4, 5, 6, 7, 8, 9, 9, 8, 7, 6, 5, 4, 3, 2) 返回一个数组Array

6.subtract：差集 scala> rdd.subtract(rdd1).collect //rdd-rdd1 res8: Array[Int] = Array()

scala> rdd1.subtract(rdd).collect rdd1-rdd res9: Array[Int] = Array(1)

7.intersection：交集，去重 scala> rdd.intersection(rdd1).collect res10: Array[Int] = Array(4, 6, 8, 7, 9, 3, 5, 2)

scala> rdd1.intersection(rdd).collect res11: Array[Int] = Array(4, 6, 3, 7, 9, 8, 5, 2)

********************************************************************* val list = List(1,2,3) // :: 用于的是向队列的头部追加数据,产生新的列表, x::list,x就会添加到list的头部 println(4 :: list) //输出: List(4, 1, 2, 3) list.::(4)

// :+ 用于在list尾部追加元素; list :+ x; println(list :+ 6) //输出: List(1, 2, 3, 6)

// +: 用于在list的头部添加元素; val list2 = "A"+:"B"+:Nil //Nil Nil是一个空的List,定义为List[Nothing] println(list2) //输出: List(A, B)

// ::: 用于连接两个List类型的集合 list ::: list2 println(list ::: list2) //输出: List(1, 2, 3, A, B)

// ++ 用于连接两个集合，list ++ list2 println(list ++ list2) //输出: List(1, 2, 3, A, B)

********************************************************************* 8.mapPartitions 说明：针对每个分区进行操作； 与map方法类似，map是对rdd中的每一个元素进行操作 而mapPartitions(foreachPartition)则是对rdd中的每个分区的迭代器进行操作。

val rdd1 = sc.parallelize(List(1,2,3,4,5,6,7,8,9)) rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[3] at parallelize at <console>:24

object MapPartitions {

def main(args: Array[String]): Unit = { val conf = new SparkConf().setMaster("local").setAppName("MapPartions") val sc =new SparkContext(conf) sc.setLogLevel("ERROR") val s =sc.parallelize(1 to 9,3) s.collect() }

def myfunc[T](iter: Iterator[T]) : Iterator[(T,T)]={ var list = List[(T,T)]() var res1 = iter.next() while(iter.hasNext){ val res2 = iter.next() list.::=(res1,res2) res1 =res2 } list.iterator } }

scala> val rdd = sc.parallelize(1 to 10,3) rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[34] at parallelize at <console>:24

val rdd1 = sc.parallelize(List("a","b","c","d","e","f","g","h","i","j"),3) rdd1: org.apache.spark.rdd.RDD[String] = ParallelCollectionRDD[38] at parallelize at <console>:24

scala> rdd.zip(rdd1).collect //(rdd,rdd1) res14: Array[(Int, String)] = Array((1,a), (2,b), (3,c), (4,d), (5,e), (6,f), (7,g), (8,h), (9,i), (10,j))

scala> rdd1.zip(rdd).collect //(rdd1,rdd) res15: Array[(String, Int)] = Array((a,1), (b,2), (c,3), (d,4), (e,5), (f,6), (g,7), (h,8), (i,9), (j,10))

12.zipWithIndex def zipWithIndex(): RDD[(T, Long)] 将现有的RDD的每个元素和相对应的Index组合，生成新的RDD[(T,Long)]

scala> val rdd1 = sc.parallelize(List("a","b","c","d","e","f","g","h","i","j"),3) rdd1: org.apache.spark.rdd.RDD[String] = ParallelCollectionRDD[38] at parallelize at <console>:24

scala> rdd1.zipWithIndex.collect res31: Array[(String, Long)] = Array((a,0), (b,1), (c,2), (d,3), (e,4), (f,5), (g,6), (h,7), (i,8), (j,9))

scala> rdd1.zipWithIndex.glom.collect res32: Array[Array[(String, Long)]] = Array(Array((a,0), (b,1), (c,2)), Array((d,3), (e,4), (f,5)), Array((g,6), (h,7), (i,8), (j,9)))

scala> rdd.glom.collect res25: Array[Array[Int]] = Array(Array(1, 2), Array(3, 4, 5)) scala> val rdd2 = rdd.zipWithUniqueId() rdd2: org.apache.spark.rdd.RDD[(Int, Long)] = MapPartitionsRDD[23] at zipWithUniqueId at <console>:26

res25: Array[Array[Int]] = Array(Array(1, 2), Array(3, 4, 5)) 0 2 1 3 5 3个分区: scala> val rdd = sc.parallelize(List(1,2,3,4,5),3) res37: Array[Array[Int]] = Array(Array(1), Array(2, 3), Array(4, 5)) 0 1 4 2 5

res38: Array[(Int, Long)] = Array((1,0), (2,1), (3,4), (4,2), (5,5))

*************************************************************************************************************************************************

14.reduceByKey def reduceByKey(func: (V, V) => V): RDD[(K, V)] 说明:合并具有相同键(key)的值 scala> val rdd = sc.parallelize(List("cat","dog","bear","frog","fish","chichen")) rdd: org.apache.spark.rdd.RDD[String] = ParallelCollectionRDD[47] at parallelize at <console>:24

scala> rdd.map(x=>(x.length,x)).reduceByKey(_+_).collect res35: Array[(Int, String)] = Array((4,bearfrogfish), (3,catdog), (7,chichen))

scala> rdd.keyBy(x=>x+"1").collect res38: Array[(String, String)] = Array((cat1,cat), (dog1,dog), (bear1,bear), (frog1,frog), (fish1,fish), (chichen1,chichen))

16.groupByKey() def groupByKey(): RDD[(K, Iterable[V])] 说明：按照相同的key进行分组，返回值为RDD[(K, Iterable[V])]

scala> val rdd = sc.parallelize(List((1,"a"),(1,"f"),(2,"b"),(2,"c"),(3,"d"))) rdd: org.apache.spark.rdd.RDD[(Int, String)] = ParallelCollectionRDD[0] at parallelize at <console>:24

scala> rdd.groupBy groupBy groupByKey

scala> rdd.groupByKey.collect res0: Array[(Int, Iterable[String])] = Array((1,CompactBuffer(a, f)), (3,CompactBuffer(d)), (2,CompactBuffer(b, c)))

17.keys def keys: RDD[K] 说明：返回键值对的RRD的key的RDD scala> rdd.keys.collect res1: Array[Int] = Array(1, 1, 2, 2, 3)

18.values def values: RDD[V] 说明：返回键值对的RRD的value的RDD

scala> rdd.values.collect res2: Array[String] = Array(a, f, b, c, d)

19.sortByKey def sortByKey(ascending: Boolean = true, numPartitions: Int = self.partitions.size): RDD[P] 说明：根据key进行排序，默认为ascending: Boolean = true(“升序”)

scala> val rdd = sc.parallelize(List("one","two","three","four","five")) rdd: org.apache.spark.rdd.RDD[String] = ParallelCollectionRDD[7] at parallelize at <console>:24

scala> val rdd1 = sc.parallelize(1 to rdd.count.toInt) rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[8] at parallelize at <console>:26

scala> rdd.zip(rdd1).collect res4: Array[(String, Int)] = Array((one,1), (two,2), (three,3), (four,4), (five,5))

scala> rdd.zip(rdd1).map(_.swap).sortByKey().collect res6: Array[(Int, String)] = Array((1,one), (2,two), (3,three), (4,four), (5,five))

scala> rdd.zip(rdd1).map(_.swap).sortByKey(false).collect res7: Array[(Int, String)] = Array((5,five), (4,four), (3,three), (2,two), (1,one))

20.partitionBy def partitionBy(partitioner: Partitioner): RDD[(K, V)] 说明：通过设置Partitioner对RDD进行重分区

**************************************************************************************************************

聚合操作 1.mapValues[Pair] def mapValues[U](f: V => U): RDD[(K, U)] 说明：将RDD[(K, V)] --> RDD[(K, U)]，对Value做(f: V => U)操作，Key不变

scala> val rdd = sc.parallelize(List("one","two","three","four","five")) rdd: org.apache.spark.rdd.RDD[String] = ParallelCollectionRDD[23] at parallelize at <console>

scala> val rdd2 = rdd.map(x=>(x.length,x)).mapValues(_+"_").collect rdd2: Array[(Int, String)] = Array((3,one_), (3,two_), (5,three_), (4,four_), (4,five_))

2.flatMapValues[Pair] flatMapValues[U](f: V => TraversableOnce[U]): RDD[(K, U)] scala> val rdd = sc.parallelize(List("one","two","three","four","five"))

scala> val a = sc.parallelize(List("dog","cat","gnu","salmon","rabbit","turkey","wolf","bear","bee"), 3) a: org.apache.spark.rdd.RDD[String] = ParallelCollectionRDD[30] at parallelize at <console>:24

scala> val b = sc.parallelize(List(1,1,2,2,2,1,2,2,2), 3) b: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[31] at parallelize at <console>:24

scala> val c = b.zip(a) c: org.apache.spark.rdd.RDD[(Int, String)] = ZippedPartitionsRDD2[32] at zip at <console>:28

scala> c.glom.collect res19: Array[Array[(Int, String)]] = Array(Array((1,dog), (1,cat), (2,gnu)), Array((2,salmon), (2,rabbit), (1,turkey)), Array((2,wolf), (2,bear), (2,bee)))

scala> c.combineByKey(List(_),(x:List[String],y:String)=>y::x,(x:List[String],y:List[String])=>x:::y).collect res23: Array[(Int, List[String])] = Array((1,List(cat, dog, turkey)), (2,List(gnu, rabbit, salmon, bee, bear, wolf)))

5.foldByKey[Pair] def foldByKey(zeroValue: V)(func: (V, V) => V): RDD[(K, V)] 说明：与reduceByKey作用类似，但通过柯里化函数，首先要初始化zeroValue

scala> val rdd1 = rdd.map(x=>x.split(" "))
scala> rdd1.collect
Array[Array[String]] = Array(Array(hello, world), Array(how, are, you?), Array(ni, hao), Array(hello, tom))

scala> val rdd2 = rdd1.flatMap(x=>x) //压扁操作
rdd2: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[3] at flatMap at <console>:28

scala> rdd2.collect
res1: Array[String] = Array(hello, world, how, are, you?, ni, hao, hello, tom)

scala> rdd2.flatMap(x=>x).collect
res3: Array[Char] = Array(h, e, l, l, o, w, o, r, l, d, h, o, w, a, r, e, y, o, u, ?, n, i, h, a, o, h, e, l, l, o, t, o, m)

scala> val rdd3 = rdd2.distinct
rdd3: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[7] at distinct at <console>:30

scala> rdd3.collect
res4: Array[String] = Array(are, tom, how, you?, hello, hao, world, ni)

repartition底层源码：
def repartition(numPartitions: Int)(implicit ord: Ordering[T] = null): RDD[T] = withScope {
coalesce(numPartitions, shuffle = true)
}
底层调用coalesce方法，shuffle为true

查看默认rdd分区数
scala> rdd.partitions.size
res4: Int = 2

默认分区2个,往小了分Yes 修改rdd分区数，并生成新的rdd
scala> val rdd4 = rdd.coalesce(1)
rdd4: org.apache.spark.rdd.RDD[String] = CoalescedRDD[8] at coalesce at <console>:26

scala> rdd4.partitions.size
res10: Int = 1

默认分区2个,往大了分NO
scala> val rdd5 = rdd.coalesce(5)
rdd5: org.apache.spark.rdd.RDD[String] = CoalescedRDD[9] at coalesce at <console>:26

scala> rdd5.partitions.size
res12: Int = 2

默认分区2个,往大了分增加属性shuffle设为true
scala> val rdd5 = rdd.coalesce(5,true)
rdd5: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[13] at coalesce at <console>:26

scala> rdd5.partitions.size
res13: Int = 5

再分区 repartition ，可增可减分区
scala> val rdd6 = rdd5.repartition(8)
rdd6: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[11] at repartition at <console>:34

scala> rdd6.partitions.size
res6: Int = 8

scala> rdd1(0).collect
res0: Array[Int] = Array(1, 5)

scala> rdd1(1).collect
res1: Array[Int] = Array()

scala> rdd1(2).collect
res2: Array[Int] = Array(2, 3, 4, 6, 7)

rdd重分区，按权重分配

4.glom 说明：返回每个分区中的数据项
val rdd = sc.parallelize(List(1,2,3,4,5,6,7,8,9))
rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[0] at parallelize at <console>:24

scala> rdd.glom.collect
res0: Array[Array[Int]] = Array(Array(1, 2, 3, 4, 5, 6, 7, 8, 9))

5.union:并集将两个RDD进行合并，不去重
scala> val rdd = sc.parallelize(Array(9,8,7,6,5,4,3,2))
rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[4] at parallelize at <console>:24

val rdd1 = sc.parallelize(List(1,2,3,4,5,6,7,8,9))
rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[3] at parallelize at <console>:24

scala> rdd.union(rdd1).collect
res3: Array[Int] = Array(9, 8, 7, 6, 5, 4, 3, 2, 1, 2, 3, 4, 5, 6, 7, 8, 9)

scala> rdd1.union(rdd).collect
res4: Array[Int] = Array(1, 2, 3, 4, 5, 6, 7, 8, 9, 9, 8, 7, 6, 5, 4, 3, 2)
返回一个数组Array

6.subtract：差集
scala> rdd.subtract(rdd1).collect //rdd-rdd1
res8: Array[Int] = Array()

scala> rdd1.subtract(rdd).collect rdd1-rdd
res9: Array[Int] = Array(1)

7.intersection：交集，去重
scala> rdd.intersection(rdd1).collect
res10: Array[Int] = Array(4, 6, 8, 7, 9, 3, 5, 2)

scala> rdd1.intersection(rdd).collect
res11: Array[Int] = Array(4, 6, 3, 7, 9, 8, 5, 2)

*********************************************************************
val list = List(1,2,3)
// :: 用于的是向队列的头部追加数据,产生新的列表, x::list,x就会添加到list的头部
println(4 :: list) //输出: List(4, 1, 2, 3) list.::(4)

// :+ 用于在list尾部追加元素; list :+ x;
println(list :+ 6) //输出: List(1, 2, 3, 6)

// +: 用于在list的头部添加元素;
val list2 = "A"+:"B"+:Nil //Nil Nil是一个空的List,定义为List[Nothing]
println(list2) //输出: List(A, B)

// ::: 用于连接两个List类型的集合 list ::: list2
println(list ::: list2) //输出: List(1, 2, 3, A, B)

// ++ 用于连接两个集合，list ++ list2
println(list ++ list2) //输出: List(1, 2, 3, A, B)

*********************************************************************
8.mapPartitions
说明：针对每个分区进行操作；
与map方法类似，map是对rdd中的每一个元素进行操作
而mapPartitions(foreachPartition)则是对rdd中的每个分区的迭代器进行操作。

val rdd1 = sc.parallelize(List(1,2,3,4,5,6,7,8,9))
rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[3] at parallelize at <console>:24

def main(args: Array[String]): Unit = {
val conf = new SparkConf().setMaster("local").setAppName("MapPartions")
val sc =new SparkContext(conf)
sc.setLogLevel("ERROR")
val s =sc.parallelize(1 to 9,3)
s.collect()
}

def myfunc[T](iter: Iterator[T]) : Iterator[(T,T)]={
var list = List[(T,T)]()
var res1 = iter.next()
while(iter.hasNext){
val res2 = iter.next()
list.::=(res1,res2)
res1 =res2
}
list.iterator
}
}

scala> val rdd = sc.parallelize(1 to 10,3)
rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[34] at parallelize at <console>:24

val rdd1 = sc.parallelize(List("a","b","c","d","e","f","g","h","i","j"),3)
rdd1: org.apache.spark.rdd.RDD[String] = ParallelCollectionRDD[38] at parallelize at <console>:24

scala> rdd.zip(rdd1).collect //(rdd,rdd1)
res14: Array[(Int, String)] = Array((1,a), (2,b), (3,c), (4,d), (5,e), (6,f), (7,g), (8,h), (9,i), (10,j))

scala> rdd1.zip(rdd).collect //(rdd1,rdd)
res15: Array[(String, Int)] = Array((a,1), (b,2), (c,3), (d,4), (e,5), (f,6), (g,7), (h,8), (i,9), (j,10))

12.zipWithIndex
def zipWithIndex(): RDD[(T, Long)]
将现有的RDD的每个元素和相对应的Index组合，生成新的RDD[(T,Long)]

scala> val rdd1 = sc.parallelize(List("a","b","c","d","e","f","g","h","i","j"),3)
rdd1: org.apache.spark.rdd.RDD[String] = ParallelCollectionRDD[38] at parallelize at <console>:24

scala> rdd1.zipWithIndex.collect
res31: Array[(String, Long)] = Array((a,0), (b,1), (c,2), (d,3), (e,4), (f,5), (g,6), (h,7), (i,8), (j,9))

scala> rdd1.zipWithIndex.glom.collect
res32: Array[Array[(String, Long)]] = Array(Array((a,0), (b,1), (c,2)), Array((d,3), (e,4), (f,5)), Array((g,6), (h,7), (i,8), (j,9)))

scala> rdd.glom.collect
res25: Array[Array[Int]] = Array(Array(1, 2), Array(3, 4, 5))

scala> val rdd2 = rdd.zipWithUniqueId()
rdd2: org.apache.spark.rdd.RDD[(Int, Long)] = MapPartitionsRDD[23] at zipWithUniqueId at <console>:26

res25: Array[Array[Int]] = Array(Array(1, 2), Array(3, 4, 5))
0 2 1 3 5
3个分区:
scala> val rdd = sc.parallelize(List(1,2,3,4,5),3)

res37: Array[Array[Int]] = Array(Array(1), Array(2, 3), Array(4, 5))
0 1 4 2 5

14.reduceByKey
def reduceByKey(func: (V, V) => V): RDD[(K, V)]
说明:合并具有相同键(key)的值
scala> val rdd = sc.parallelize(List("cat","dog","bear","frog","fish","chichen"))
rdd: org.apache.spark.rdd.RDD[String] = ParallelCollectionRDD[47] at parallelize at <console>:24

scala> rdd.map(x=>(x.length,x)).reduceByKey(_+_).collect
res35: Array[(Int, String)] = Array((4,bearfrogfish), (3,catdog), (7,chichen))

scala> rdd.keyBy(x=>x+"1").collect
res38: Array[(String, String)] = Array((cat1,cat), (dog1,dog), (bear1,bear), (frog1,frog), (fish1,fish), (chichen1,chichen))

16.groupByKey()
def groupByKey(): RDD[(K, Iterable[V])]
说明：按照相同的key进行分组，返回值为RDD[(K, Iterable[V])]

scala> val rdd = sc.parallelize(List((1,"a"),(1,"f"),(2,"b"),(2,"c"),(3,"d")))
rdd: org.apache.spark.rdd.RDD[(Int, String)] = ParallelCollectionRDD[0] at parallelize at <console>:24

scala> rdd.groupBy
groupBy groupByKey

scala> rdd.groupByKey.collect
res0: Array[(Int, Iterable[String])] = Array((1,CompactBuffer(a, f)), (3,CompactBuffer(d)), (2,CompactBuffer(b, c)))

17.keys
def keys: RDD[K]
说明：返回键值对的RRD的key的RDD
scala> rdd.keys.collect
res1: Array[Int] = Array(1, 1, 2, 2, 3)

18.values
def values: RDD[V]
说明：返回键值对的RRD的value的RDD

scala> rdd.values.collect
res2: Array[String] = Array(a, f, b, c, d)

19.sortByKey
def sortByKey(ascending: Boolean = true, numPartitions: Int = self.partitions.size): RDD[P]
说明：根据key进行排序，默认为ascending: Boolean = true(“升序”)

scala> val rdd = sc.parallelize(List("one","two","three","four","five"))
rdd: org.apache.spark.rdd.RDD[String] = ParallelCollectionRDD[7] at parallelize at <console>:24

scala> val rdd1 = sc.parallelize(1 to rdd.count.toInt)
rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[8] at parallelize at <console>:26

scala> rdd.zip(rdd1).collect
res4: Array[(String, Int)] = Array((one,1), (two,2), (three,3), (four,4), (five,5))

scala> rdd.zip(rdd1).map(_.swap).sortByKey().collect
res6: Array[(Int, String)] = Array((1,one), (2,two), (3,three), (4,four), (5,five))

scala> rdd.zip(rdd1).map(_.swap).sortByKey(false).collect
res7: Array[(Int, String)] = Array((5,five), (4,four), (3,three), (2,two), (1,one))

20.partitionBy
def partitionBy(partitioner: Partitioner): RDD[(K, V)]
说明：通过设置Partitioner对RDD进行重分区

聚合操作
1.mapValues[Pair]
def mapValues[U](f: V => U): RDD[(K, U)]
说明：将RDD[(K, V)] --> RDD[(K, U)]，对Value做(f: V => U)操作，Key不变

scala> val rdd = sc.parallelize(List("one","two","three","four","five"))
rdd: org.apache.spark.rdd.RDD[String] = ParallelCollectionRDD[23] at parallelize at <console>

scala> val rdd2 = rdd.map(x=>(x.length,x)).mapValues(_+"_").collect
rdd2: Array[(Int, String)] = Array((3,one_), (3,two_), (5,three_), (4,four_), (4,five_))

2.flatMapValues[Pair]
flatMapValues[U](f: V => TraversableOnce[U]): RDD[(K, U)]
scala> val rdd = sc.parallelize(List("one","two","three","four","five"))

scala> val a = sc.parallelize(List("dog","cat","gnu","salmon","rabbit","turkey","wolf","bear","bee"), 3)
a: org.apache.spark.rdd.RDD[String] = ParallelCollectionRDD[30] at parallelize at <console>:24

scala> val b = sc.parallelize(List(1,1,2,2,2,1,2,2,2), 3)
b: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[31] at parallelize at <console>:24

scala> val c = b.zip(a)
c: org.apache.spark.rdd.RDD[(Int, String)] = ZippedPartitionsRDD2[32] at zip at <console>:28

scala> c.glom.collect
res19: Array[Array[(Int, String)]] = Array(Array((1,dog), (1,cat), (2,gnu)), Array((2,salmon), (2,rabbit), (1,turkey)), Array((2,wolf), (2,bear), (2,bee)))

scala> c.combineByKey(List(_),(x:List[String],y:String)=>y::x,(x:List[String],y:List[String])=>x:::y).collect
res23: Array[(Int, List[String])] = Array((1,List(cat, dog, turkey)), (2,List(gnu, rabbit, salmon, bee, bear, wolf)))

5.foldByKey[Pair]
def foldByKey(zeroValue: V)(func: (V, V) => V): RDD[(K, V)]
说明：与reduceByKey作用类似，但通过柯里化函数，首先要初始化zeroValue

scala> val rdd = sc.parallelize(List("one","two","three","four","five"))
rdd: org.apache.spark.rdd.RDD[String] = ParallelCollectionRDD[36] at parallelize at <console>:24

scala> rdd.map(x=>(x.length,x)).foldByKey("@")(_+_).collect
res27: Array[(Int, String)] = Array((4,@fourfive), (3,@onetwo), (5,@three))

7.join
def join[W](other: RDD[(K, W)]): RDD[(K, (V, W))]
scala> val a = sc.parallelize(List("dog", "salmon", "salmon", "rat", "elephant"), 3)
a: org.apache.spark.rdd.RDD[String] = ParallelCollectionRDD[43] at parallelize at <console>:24

scala> val b = a.keyBy(_.length)
b: org.apache.spark.rdd.RDD[(Int, String)] = MapPartitionsRDD[44] at keyBy at <console>:26

scala> val c = sc.parallelize(List("dog","cat","gnu","salmon","rabbit","turkey","wolf","bear","bee"), 3)
c: org.apache.spark.rdd.RDD[String] = ParallelCollectionRDD[45] at parallelize at <console>:24