Spark中的groupByKey 、aggregateByKey、reduceByKey 的区别

最新推荐文章于 2025-06-11 20:00:56 发布

原创最新推荐文章于 2025-06-11 20:00:56 发布 · 1.1w 阅读

14 ·

CC 4.0 BY-SA版权

Spark 专栏收录该内容

6 篇文章

订阅专栏

本文探讨了在处理大规模数据集时，ReduceByKey与AggregateByKey两种Spark操作的区别。通过实例展示了如何利用这两种方法来实现用户访问站点的去重统计，并讨论了各自的优缺点及适用场景。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.reduceByKey vs aggregateByKey

假设你有一系列元组，以用户ID为key，以用户在某一时间点采访的站为value：

val userAccesses = sc.parallelize(Array("u1", "site1"), ("u2", "site1"), ("u1", "site1"), ("u2", "site3"), ("u2", "site4")））

我们要对这个列表进行处理，获得某个用户访问过且去重后的所有站点。因groupByKey运算量较大，可选方案有reduceByKey，aggregateByKey。

reduceByKey代码如下：

val mapedUserAccess = userAccesses.map(userSite => (userSite._1, Set(userSite._2)))
val distinctSite = mapedUserAccess.reduceByKey(_++_)

但上述代码的问题是，RDD的每个值都将创建一个Set，如果处理一个巨大的RDD,这些对象将大量吞噬内存，并且对垃圾回收造成压力。

如果使用aggregateByKey：

val zeroValue = collecyion.mutable.set[String]()
val aggregated = userAccesses.aggregateByKey(zeroValue)((set,v) => set += v, (setOne, setTwo) => setOne ++= setTwo)

为避免reduceByKey内存问题，可用aggregateByKey。

aggregateByKey函数的使用，需为它提供以下三个参数：

1.零值（zero）：即聚合的初始值

2.函数f:(U, V)

把值V合并到数据结构U，该函数在分区内合并值时使用

3.函数 g:(U, V)

合并两个数据结构U，在分区间合并值时调用此函数。

2.原理差别

（1）groupByKey()是对RDD中的所有数据做shuffle,根据不同的Key映射到不同的partition中再进行aggregate。

（2）aggregateByKey()是先对每个partition中的数据根据不同的Key进行aggregate，然后将结果进行shuffle，完成各个partition之间的aggregate。因此，和groupByKey()相比，运算量小了很多。

(3) distinct()也是对RDD中的所有数据做shuffle进行aggregate后再去重。

（4）reduceByKey()也是先在单台机器中计算，再将结果进行shuffle，减小运算量