val rdd1 = sc.makeRDD(Array(("A", 1), ("A", 2), ("B", 3), ("B", 1), ("B", 2), ("C", 1)), 2)
val rdd2 = rdd1.combineByKey(
(v: Int) => v +"_",
(c: String, v:Int) => c + "@" + v,
(c1: String, c2: String) => c1 + "$" +c2
)
println(rdd2.collect().toBuffer)
结果:ArrayBuffer((B,3_$1_@2), (A,1_@2), (C,1_))
详解
算子的三个参数的用法:
第一个参数,如果分区中元素的key是第一次出现,那么就使用第一个参数应用到这个元素中,如果遇到的元素经过了第一个参数的处理,那么就让第二个参数应用到已存在的元素和这个元素上,第三个参数是将所有分区的计算结果按照key进行汇总分组计算
算子的计算过程:
注:因为sc.makeRDD的时候指定了一个参数2,所以会在两个分区中进行计算,所以下面的分析过程也是在两个分区的基础上
<