Spark-reduceByKey和groupByKey

最新推荐文章于 2022-08-16 13:13:13 发布

lisery_nj

最新推荐文章于 2022-08-16 13:13:13 发布

阅读量421

点赞数

分类专栏： spark scala 文章标签： reduceByKey groupByKey

spark 同时被 2 个专栏收录

14 篇文章 0 订阅

订阅专栏

scala

5 篇文章 0 订阅

订阅专栏

大数据处理中有一个典型的例子WordCount,类似与Hello World的作用，map阶段主要是将单词转换为(word,1)的形式，在reduce阶段则是将Key值相同的1累加求和，最终得到的结果就是单词的count数。假设map的结果为(word,(m,n))如果按照key值将对应的列累加起来呢？比如经过map的数据集是这样的("happy",1,3),("hello",2,6),("happy",3,4)如何通过操作获得("happy",3,9),("hello",2,6)，本文从这个角度介绍在Spark中pairRDD的两种方法groupByKey和reduceByKey

groupByKey

groupByKey对具有相同键的值进行分组，比如pairRDD={(1,2),(3,2),(1,7)},调用groupByKey的结果为{(1,[2,7]),(3,2)}，groupByKey后仍然是pairRDD,只不过k--v中的value值为的Iterator类型。

reduceByKey

合并具有相同键的值，和reduce相同的是它们都接收一个函数,并使用该函数对值进行合并。reduceByKey() 会为数据集中的每个键进行并行的归约操作,每个归约操作会将键相同的值合并起来。因为数据集中可能有大量的键,所以 reduceByKey() 没有被实现为向用户程序返回一个值的行动操作。实际上,它会返回一个由各键和对应键归约出来的结果值组成的新的 RDD。仍然是刚才的那个例子，reduceByKey后获得的结果是{(1,9),(3,2)}.

reduceByKey和groupByKey

其实reduceByKey操作可以通过groupByKey和reduce两个操作达到reduceByKey的效果。通过文章开头提到那个例子分别介绍使用reduceByKey和groupByKey来解决这个问题。

reduceByKey

rdd.reduceByKey((x,y)=>(x._1+y._1,x._2+y._2))

其中reduceByKey方法是聚合类函数，x相当与当前行，y为下一行，通过这个方法可以把具有相同键的值聚合起来。

groupByKey

rdd.groupByKey().mapValue(value=>value.reduce((x,y)=>(x._1+y._1,x._2+y._2)))

对比这两个方法，reduceByKey方法的时间效率更优，但是在一些情况下通过groupByKey在通过mapValue和reduce进行来操作pairRDD更容易控制中间过程。
---------------------
作者：小迷妹大米姐
来源：CSDN
原文：https://blog.csdn.net/qq_27717921/article/details/79603881

lisery_nj

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark-reduceByKey和groupByKey

大数据处理中有一个典型的例子WordCount,类似与Hello World的作用，map阶段主要是将单词转换为(word,1)的形式，在reduce阶段则是将Key值相同的1累加求和，最终得到的结果就是单词的count数。假设map的结果为(word,(m,n))如果按照key值将对应的列累加起来呢？比如经过map的数据集是这样的("happy",1,3),("hello",2,6),("hap...
复制链接

扫一扫

专栏目录