BlockheadLS的博客

多看书,多请教,勤思考,勤记录。

Learning Spark 笔记(四) -- reduceByKey、combineByKey

6 . reduceByKey运行多个reduce操作,每个key对应一个reduce操作,只不过reduce返回的是结果,reduceByKey返回的是一个新的RDD。
7 . Spark有很多根据键来合并数据的操作,其中大部分都是用combineByKey来实现的。下面是一个利用combineByKey来计算每个key的value平均值的例子。

val input = sc.textFile("...",2)
val result = input.combineByKey(
    (v)=>(v,1),
    (acc:(Int,Int),v)=>(acc._1+v,acc._2+1),
    (acc1:(Int,Int),acc2:(Int,Int))=>(acc1._1+acc2._1,acc1._2+acc2._2)).map{
    case (key,value) => (key,value._1/value._2.toDouble)}

用上面这个例子来看看combineByKey的执行过程。如下图所示:
这里写图片描述
首先在各个分区内,如果碰到一个新的key就要创建一个Combiner并要赋予初值,这是图片中标1的地方;如果是碰到一个之前已有的key,则创建mergeValue,如图中标2的地方;在每个分区中都要这样创建Combiner和mergeValue,这样在分区内结束后,就要创建mergeCombiners,来合并每个分区的combiner。combineByKey并不要求输入输出的类型一致。

阅读更多
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/BlockheadLS/article/details/52355183
个人分类: Spark学习之路
上一篇Learning Spark 笔记(三) -- take和persist
下一篇Learning Spark 笔记(五) -- coalesce、repartition
想对作者说点什么? 我来说一句

没有更多推荐了,返回首页

关闭
关闭