spark的combineByKey算子原理详解

val rdd1 = sc.makeRDD(Array(("A", 1), ("A", 2), ("B", 3), ("B", 1), ("B", 2), ("C", 1)), 2)
val rdd2 = rdd1.combineByKey(
      (v: Int) => v +"_",
      (c: String, v:Int) => c + "@" + v,
      (c1: String, c2: String) => c1 + "$" +c2
    )
    println(rdd2.collect().toBuffer)
结果:ArrayBuffer((B,3_$1_@2), (A,1_@2), (C,1_))

详解

算子的三个参数的用法:

第一个参数,如果分区中元素的key是第一次出现,那么就使用第一个参数应用到这个元素中,如果遇到的元素经过了第一个参数的处理,那么就让第二个参数应用到已存在的元素和这个元素上,第三个参数是将所有分区的计算结果按照key进行汇总分组计算

算子的计算过程:

注:因为sc.makeRDD的时候指定了一个参数2,所以会在两个分区中进行计算,所以下面的分析过程也是在两个分区的基础上

<
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值