Learning Spark 笔记(四) -- reduceByKey、combineByKey

本文介绍了Spark中的reduceByKey操作,它用于对每个key执行reduce操作,并返回新的RDD。同时,文章重点探讨了combineByKey函数,通过一个实例展示了如何使用它来计算key的value平均值,并详细解释了其执行流程,包括在各分区内部创建Combiner、mergeValue以及mergeCombiners的过程。
摘要由CSDN通过智能技术生成

6 . reduceByKey运行多个reduce操作,每个key对应一个reduce操作,只不过reduce返回的是结果,reduceByKey返回的是一个新的RDD。
7 . Spark有很多根据键来合并数据的操作,其中大部分都是用combineByKey来实现的。下面是一个利用combineByKey来计算每个key的value平均值的例子。

val input = sc.textFile("...",2)
val result = input.combineByKey(
    (v)=>(v,1),
    (acc:(Int,Int),v)=>(acc._1+v,acc._2+1),
    (acc1:(Int,Int),acc2:(Int,Int))=>(acc1._1+acc2._1,acc1._2+acc2._2)).map{
    case (key,value) => (key,value._1/value._2.toDouble)}

用上面这个例子来看看combineByKey的执行过程。如下图所示:
这里写图片描述
首先在各个分区内,如果碰到一个新的key就要创建一个Combiner并要赋予初值,这是图片中标1的地方;如果是碰到一个之前已有的key,则创建mergeValue,如图中标2的地方;在每个分区中都要这样创建Combiner和mergeValue,这样在分区内结束后,就要创建mergeCombiners,来合并每个分区的combiner。combineByKey并不要求输入输出的类型一致。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值