Spark算子reduceByKey深度解析

最新推荐文章于 2024-07-31 13:16:03 发布

qq_23660243

最新推荐文章于 2024-07-31 13:16:03 发布

阅读量5w

点赞数 13

分类专栏： Scala 大数据文章标签： scala spark reduceByKey

本文链接：https://blog.csdn.net/qq_23660243/article/details/51435257

版权

本文详细解析Spark算子reduceByKey的原理和应用，通过实例展示如何使用reduceByKey统计键值对中value的聚合操作，如计算单词频率或字母出现次数，帮助读者深入理解这一关键操作。

摘要由CSDN通过智能技术生成

最近经常使用到reduceByKey这个算子，懵逼的时间占据多数，所以沉下心来翻墙上国外的帖子仔细过了一遍，发现一篇不错的，在此加上个人的理解整体过一遍这个算子，那么我们开始：

国外的大牛一上来给出这么一句话，个人感觉高度概括了reduceByKey的功能：

Spark RDD reduceByKey function merges the values for each key 
using an associative reduce function.【Spark的RDD的reduceByKey
是使用一个相关的函数来合并每个key的value的值的一个算子（那么主
干就是reduceByKey是个算子/函数）】。

那么这就基本奠定了reduceByKey的作用域是key-value类型的键值对，并且是只对每个key的value进行处理，如果含有多个key的话，那么就对多个values进行处理。这里的函数是我们自己传入的，也就是说是可人为控制的【其实这是废话，人为控制不了这算子一点用没有】。那么举个例子：

scala> val x = sc.parallelize(Array(("a", 1), ("b", 1), ("a", 1),
     | ("a", 1), ("b", 1), ("b", 1),
     | ("b", 1), ("b", 1)), 3)

我们创建了一个Array的字符串，并把其存入spark的集群上，设置了三个分区【这里我们不关注分区，只关注操作】。那么我们调用reduceByKey并且传入函数进行相应操作【本处我们对相同key的value进行相加操作，类似于统计单词出现次数】：

scala> val y = x.reduceByKey((pre, after) => (pre + after))

这里两个参数我们逻辑上让他分别代表同一个key的两个不同values，那么结果想必大家应该猜到了：

scala> y.collect
res0: Array[(String, Int)] = Array((a,3), (b,

最低0.47元/天解锁文章

qq_23660243

关注

13
点赞
踩
22

收藏

觉得还不错? 一键收藏
12
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录