关闭

Learning Spark 笔记(四) -- reduceByKey、combineByKey

301人阅读 评论(0) 收藏 举报
分类:

6 . reduceByKey运行多个reduce操作,每个key对应一个reduce操作,只不过reduce返回的是结果,reduceByKey返回的是一个新的RDD。
7 . Spark有很多根据键来合并数据的操作,其中大部分都是用combineByKey来实现的。下面是一个利用combineByKey来计算每个key的value平均值的例子。

val input = sc.textFile("...",2)
val result = input.combineByKey(
    (v)=>(v,1),
    (acc:(Int,Int),v)=>(acc._1+v,acc._2+1),
    (acc1:(Int,Int),acc2:(Int,Int))=>(acc1._1+acc2._1,acc1._2+acc2._2)).map{
    case (key,value) => (key,value._1/value._2.toDouble)}

用上面这个例子来看看combineByKey的执行过程。如下图所示:
这里写图片描述
首先在各个分区内,如果碰到一个新的key就要创建一个Combiner并要赋予初值,这是图片中标1的地方;如果是碰到一个之前已有的key,则创建mergeValue,如图中标2的地方;在每个分区中都要这样创建Combiner和mergeValue,这样在分区内结束后,就要创建mergeCombiners,来合并每个分区的combiner。combineByKey并不要求输入输出的类型一致。

0
0

查看评论
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
    个人资料
    • 访问:20328次
    • 积分:465
    • 等级:
    • 排名:千里之外
    • 原创:23篇
    • 转载:4篇
    • 译文:3篇
    • 评论:8条
    最新评论