Spark编程:combineByKey与aggregateByKey异同

combineByKey与aggregateByKey异同

combineByKeyaggregateByKey
不同点有三个参数列表而且不需要初始值只有两个参数列表且需要初始值

相同点:两者都能映射key值分别进行分区内计算和分区间计算。

深入代码

aggregateByKey

  • aggregateByKey有两个参数列表
    • 第一个参数列表: 需要传递一个参数,表示为初始值
      当碰见第一个key时候,和value进行分区内计算
    • 第二个参数列表: 需要传递2个参数:
      第一个参数表示分区内计算
      第二个参数表示分区间计算
//aggregateByKey有两个参数列表
//第一个参数列表: zeroValue = 
//	   需要传递一个参数,表示为初始值
//     当碰见第一个key时候,和value进行分区内计算
//第二个参数列表: 
//	   需要传递2个参数:
//     第一个参数表示分区内计算
//     第二个参数表示分区间计算

rdd.aggregateByKey(zeroValue = 0)(
    (x, y) => math.max(x, y),
    (x, y) => x + y
).collect().foreach(println)

combineByKey

  • combineByKey方法需要三个参数:
    • 第一个参数: 将相同key的第一个数据进行结构转换,实现操作
    • 第二个参数: 分区内的计算规则
    • 第三个参数: 分区间的计算规则
//combineByKey方法需要三个参数:
//第一个参数: 
// 将相同key的第一个数据进行结构转换,实现操作
//第二个参数: 
// 分区内的计算规则
//第三个参数: 
// 分区间的计算规则

val newRDD: RDD[(String, (Int, Int))] = rdd.combineByKey(
    v => (v, 1),
    (t: (Int, Int), v) => {
       (t._1 + v, t._2 + 1)
    },
    (t1 Int: , t2: Int) => {
       (t1._1 + t2._1, t1._2 + t2._2)   
    }
) 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值