spark中算子详解：aggregateByKey

最新推荐文章于 2023-08-02 03:04:32 发布

ProductBug

最新推荐文章于 2023-08-02 03:04:32 发布

阅读量5.5k

点赞数 9

分类专栏： spark 文章标签： rdd scala

本文链接：https://blog.csdn.net/jiaotongqu6470/article/details/78457966

版权

本文深入解析Spark中的aggregateByKey操作。首先，通过scala集合创建了一个包含两个分区的pairRDD，接着详细解释aggregateByKey的执行过程：首先在每个分区内部按key聚合，然后局部计算最大值，这里使用了math.max函数；初始值100在分区聚合时被加到每个key的值上；最后，所有分区的结果进一步合并，得到最终结果。

摘要由CSDN通过智能技术生成

通过scala集合以并行化方式创建一个RDD

scala> val pairRdd = sc.parallelize(List(("cat",2),("cat",5),("mouse",4),("cat",12),("dog",12),("mouse",2)),2)

pairRdd 这个RDD有两个区，一个区中存放的是：

("cat",2),("cat",

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

ProductBug

关注关注

9
点赞
踩
13

收藏

觉得还不错? 一键收藏
4
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Spark中aggregateByKey算子详解介绍

CSDN 精品推荐

08-16

287

上一篇文章我们讲述了如何使用 `reduceByKey` 这个算子按照key进行聚合，本文中继续提出另外一个算子 `aggregateByKey` ，它同样可以实现按照key进行聚合，而且比 `reduceByKey` 更为灵活，对于 `reduceByKey` 来说分区内和分区间的聚合规则是相同的，都是传入的函数逻辑，而 `aggregateByKey` 能够在分区内和分区间实现不同的聚合逻辑。

Spark操作—aggregate、aggregateByKey详解

热门推荐

午夜阳光

02-23

3万+

aggregateByKey函数对PairRDD中相同的Key值进行聚合操作，在聚合过程中同样使用了一个中立的初始值。和aggregate函数类似，aggregateByKey返回值的类型不需要和RDD中value的类型一致。因为aggregateByKey是对相同Key中的值进行聚合操作，所以aggregateByKey'函数最终返回的类型还是PairRDD，对应的结果是Key和聚合后的值，而a

4 条评论您还未登录，请先登录后发表或查看评论

spark aggregateByKey算子

yx_keith的博客

04-24

452

aggregateByKey算子的作用是根据key进行聚合操作，代码均是基于java api,先贴代码：public class AggregateByKeyOperator { public static void main(String[] args) { SparkConf sparkConf = new SparkConf().setAppName("Aggregate...

spark中aggregateByKey算子详解

may_fly的博客

10-16

461

参数：(zeroValue:U,[partitioner: Partitioner]) (seqOp: (U, V) => U,combOp: (U, U) => U) 作用：在kv对的RDD中，，按key将value进行分组合并，合并时，将每个value和初始值作为seq函数的参数，进行计算，返回的结果作为一个新的kv对，然后再将结果按照key进行合并，最后将每个分组的value...

Spark算子之aggregateByKey详解

lixinkuan的博客

09-20

1366

一、基本介绍 rdd.aggregateByKey(3, seqFunc, combFunc) 其中第一个函数是初始值 3代表每次分完组之后的每个组的初始值。 seqFunc代表combine的聚合逻辑每一个mapTask的结果的聚合成为combine combFunc reduce端大聚合的逻辑 ps:aggregateByKey默认分组举一个简单的在生产环境中的一段代码：有...

详解Spark核心算子 : aggregateByKey和combineByKey

超越时代

03-21

2392

详解Spark核心算子 : aggregateByKey和combineByKey aggregateByKey aggregateByKey有三种声明 def aggregateByKey[U: ClassTag](zeroValue: U, partitioner: Partitioner) 　　　　(seqOp: (U, V) => U, combOp: (U, U) =&g...

Spark算子[09]：aggregateByKey、aggregate详解

行走的树

12-11

1570

aggregateByKeyaggregateByKey的用法同combineByKey，针对combineByKey的三个参数： createCombiner: V => C，mergeValue: (C, V) => C，mergeCombiners: (C, C) => C 将createCombiner: V => C替换成一个初始值 C ，相当于aggregateByKey的三个参数为

Spark常用算子详解汇总：实战案例、Java版本、Scala版本

行走的树

12-18

2635

Spark算子[01]：foreach，foreachPartition Spark算子[02]：coalesce，repartition Spark算子[03]：mapPartitions，mapPartitionsWithIndex 源码实战案例分析 Spark算子[04]：map，flatMap，mapToPair，flatMapToPair Spar

spark中算子aggregateByKey解释

chy2z的专栏

07-27

392

刚开始学aggregateByKey算子看的一头雾水，今天写下心得。看下面的例子： package com.chy.rdd.transformation; import com.chy.util.SparkUtil; import org.apache.spark.api.java.JavaRDD; import org.apache.spark.api.java.JavaSparkCont...

Spark操作之aggregate、aggregateByKey详解

08-25

主要介绍了Spark操作之aggregate、aggregateByKey详解，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧

Spark:aggregateByKey算子

weixin_48109576的博客

08-08

180

aggregateByKey在spark中是Transformation且产生shuffle 他是一个柯里化方法,只有(K,V)形式对偶元组才能调源码: 可以看到,传入参数zeroValue代表初始值, defaultPartition是默认分区器.底层调的HasPartitioner,它的特点是二个rdd比较取max的分区先与初始值在分区内相加,在全局聚合,初始值只在分区内(局部)聚合才相加 val pairRDD = sc.parallelize(List(("cat",2)...

Spark aggregateByKey 算子详解

Tiramisu

08-01

267

aggregateByKey def aggregateByKey[U: ClassTag](zeroValue: U)(seqOp: (U, V) => U,combOp: (U, U) => U): RDD[(K, U)] zeroValue: 初始值，每个分区中，同一种key，只用一次初始值，第一个值和zeroValue的结果，用于对应key的剩余值计算 seqOp: 区间内计算，每个分区中，同一种key的value进行操作 combOp: 区间之间计算，各个分区得到的结果，与其他分区

spark中的aggregateByKey算子详解

会流泪de鱼的博客

04-28

603

spark中的aggregateByKey算子详解：源码解析：源码有三种格式： /** * 自定义分区器Partitioner * @param zeroValue 初始值（默认值） * @param partitioner 自定义分区器 * @param seqOp * @param combOp * @tparam U * @retu...

spark算子汇总-AggregateByKey

huangyueranbbc的博客

08-08

191

AggregateByKey算子操作。 Github项目上已包含Spark所有操作DEMO。 Java版本： package com.huangyueran.spark.operator; import java.util.ArrayList; import java.util.List; import org.apache.spark.SparkConf; import org....

Spark 中的 aggregateByKey

King_S_H的博客

06-11

794

直译过来是按照 Key 进行聚合源码如下:说明:第一个参数是，给每一个分区中的每一种key一个初始值第二个是个函数， Seq Function，这个函数就是用来先对每个分区内的数据按照 key 分别进行定义进行函数定义的操作第三个是个函数， Combiner Function，对经过 Seq Function 处理过的数据按照 key 分别进行进行函数定义的操作也可以自定义分区器, 分区器有默认值整个流程就是:在 kv 对的 RDD 中，按 key 将 value 进行分组合并，合并时，将每个

spark中aggregateByKey的用法及示例