spark-api ByKey三连

最新推荐文章于 2022-05-29 13:51:16 发布

cyz0202

最新推荐文章于 2022-05-29 13:51:16 发布

阅读量140

点赞数

分类专栏：技术问题 # spark 文章标签： spark

本文链接：https://blog.csdn.net/cyz0202/article/details/104810253

版权

技术问题同时被 2 个专栏收录

56 篇文章 0 订阅

订阅专栏

spark

2 篇文章 0 订阅

订阅专栏

spark-api 三连

combineByKey
aggregateByKey
foldByKey

combineByKey

combineByKey定义如下图所示
举个例子：一组(key,value)，统计各个key的平均值；定义中的V默认为(key,value)中的value；实现如下（类型不声明会报错，比较奇怪）

aggregateByKey

aggregateByKey定义如下图所示：比较特殊
aggregateByKey相比于combineByKey，特殊之处是你可以设置默认的初始combiner，不用createCombiner；写法的话，对于上例，把上面的写法开头 x => (x,1) 改成 (0,0) 即可（注意其他部分写法要符合定义的形式）；

foldByKey

foldByKey定义如下图所示，更为特殊
foldByKey操作作用于RDD[K,V]根据某个K将其所有V做折叠、合并处理；zeroValue用来初始化 V，然后用于 func (V,V) => V;
一个很好的例子来自此处(侵删)：

scala> val rdd1 = sc.makeRDD(Array(
     |       ("A", 1), ("A", 2), ("B", 1), ("B", 2), ("C", 1)
     |     ))
rdd1: org.apache.spark.rdd.RDD[(String, Int)] = ParallelCollectionRDD[12] at makeRDD at <console>:24
 
scala> /**
     |       * rdd1中每个key对应的V进行累加，注意zeroValue=0，需要先初始化V，映射函数为+操作
     |       * 比如，("A", 1), ("A", 2)，先将zeroValue应用于每个V，得到("A", 1+0), ("A", 2+)，
     |       * 即，("A", 1), ("A", 2)，在将映射函数应用于初始化后的V，最后得到("A", 1+@), ("A", 3)
     |       */
     |     rdd1.foldByKey(0)(_+_).collect()
res14: Array[(String, Int)] = Array((B,3), (A,3), (C,1))

# 映射函数为乘法时，zeroValue需设置成1(注意zeroValue是V的初始值V0，会用在第一次见到某个key的value(V1)时，执行func=(_*_) 即V1=V0*V1=1*V1；再见到同一个key的另一个V2，就执行 V2=V1*V2，以此类推；
    rdd1.foldByKey(1)(_*_).collect
 
res16: Array[(String, Int)] = Array((B,2), (A,2), (C,1))

foldByKey应用场景有限

cyz0202

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
spark-api ByKey三连

spark-api 三连combineByKeyaggregateByKeyfoldByKeycombineByKeycombineByKey定义如下图所示举个例子：一组(key,value)，统计各个key的平均值；定义中的V默认为(key,value)中的value；实现如下（类型不声明会报错，比较奇怪）aggregateByKeyaggregateByKey定义如下图所示：比...
复制链接

扫一扫

专栏目录