[Spark基础]-- spark RDD操作算子详解（汇总）

最新推荐文章于 2024-07-16 22:38:10 发布

往事随风ing

最新推荐文章于 2024-07-16 22:38:10 发布

阅读量3.6k

点赞数 2

分类专栏： Spark 文章标签： spark

本文链接：https://blog.csdn.net/high2011/article/details/53572621

版权

Spark 专栏收录该内容

133 篇文章 10 订阅 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

本文详细介绍了Spark中的RDD操作算子aggregateByKey和reduceByKey，包括它们的不同变体、参数说明以及示例代码。aggregateByKey允许使用自定义的合并函数对相同键的值进行聚合，而reduceByKey则提供了类似reduce的功能，适用于对键值对中的值进行聚合。文章还提供了多个实际示例来帮助理解这两个操作的用法。

摘要由CSDN通过智能技术生成

一、aggregateByKey [Pair]

像聚合函数一样工作，但聚合应用于具有相同键的值。也不像聚合函数，初始值不应用于第二个reduce。

列表变式

(1)def aggregateByKey[U](zeroValue: U)(seqOp: (U, V) ⇒ U, combOp: (U, U) ⇒ U)(implicit arg0: ClassTag[U]): RDD[(K, U)]

ps:

使用给定的组合函数和中性“零值”汇总每个键的值。此函数可返回不同的结果类型U，而不是此RDD中的值的类型，
因此，我们需要一个用于将V合并成U的操作和用于合并两个U的一个操作，如在scala.TraversableOnce中。前一个操作用于合并a中的值
分区，后者用于合并分区之间的值。避免记忆分配，这两个函数都允许修改并返回其第一个参数而不是创建一个新的U.

(2)def aggregateByKey[U](zeroValue: U, numPartitions: Int)(seqOp: (U, V) ⇒ U, combOp: (U, U) ⇒ U)(implicit arg0: ClassTag[U]): RDD[(K, U)]

ps:

使用给定的组合函数和中性“零值”汇总每个键的值。此函数可返回不同的结果类型U，而不是此RDD中的值的类型，