Spark核心RDD：combineByKey函数详解

最新推荐文章于 2024-07-25 09:26:43 发布

Javis486

最新推荐文章于 2024-07-25 09:26:43 发布

阅读量3.1w

点赞数 31

分类专栏： Spark 文章标签： combineByKey Scala spark

本文链接：https://blog.csdn.net/jiangpeng59/article/details/52538254

版权

为什么单独讲解combineByKey？

因为combineByKey是Spark中一个比较核心的高级函数，其他一些高阶键值对函数底层都是用它实现的。诸如 groupByKey,reduceByKey等等

如下给出combineByKey的定义，其他的细节暂时忽略(1.6.0版的函数名更新为combineByKeyWithClassTag)

def combineByKey[C](
      createCombiner: V => C,
      mergeValue: (C, V) => C,
      mergeCombiners: (C, C) => C,
      partitioner: Partitioner,
      mapSideCombine: Boolean = true,
      serializer: Serializer = null)

如下解释下3个重要的函数参数：

createCombiner: V => C ，这个函数把当前的值作为参数，此时我们可以对其做些附加操作(类型转换)并把它返回 (这一步类似于初始化操作)
mergeValue: (C, V) => C，该函数把元素V合并到之前的元素C(createCombiner)上 (这个操作在每个分区内进行)
mergeCombiners: (C, C) => C，该函数把2个元素C合并 (这个操作在不同分区间进行)

如下看一个使用combineByKey来求解平均数的例子

val initialScores = Array(("Fred", 88.0

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Javis486

关注关注

31
点赞
踩
59

收藏

觉得还不错? 一键收藏
13
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Spark RDD算子(五) CombineByKey

timicai的博客

11-11

362

CombineByKey 聚合数据一般在集中式数据比较方便，如果涉及到分布式的数据集，可以使用combineByKey, 这个是各种聚集操作的鼻祖 def combineByKey[C](createCombiner : Function1[V, C], mergeValue : Function2[C, V, C], mergeCombiners : Function2[C, C, C]) : RDD[scala.Tuple2[K, C]] combineByKey涉及三个方法：createComb

SparkRDD算子--combineByKey算子

寒暄的博客

08-03

166

语法 val newRdd = oldRdd.combineByKey(createCombiner: V => C, mergeValue: (C, V) => C, mergeCombiners: (C, C) => C) createCombiner: combineByKey() 会遍历分区中的所有元素，因此每个元素的键要么还没有遇到过，要么就和之前的某个元素的键相同。如果这是一个新的元素,combineByKey()会使用一个叫作createCombiner()的函数来创建那个键

13 条评论您还未登录，请先登录后发表或查看评论

reduceByKey 函数详解

最新发布

xixixixixixixi21的博客

07-25

402

reduceByKey 函数主要用于处理分布式数据集。它接收两个操作符作为参数：keySelector：这是一个映射函数，用于从输入元素中提取键。valueReducer：这是另一个函数，用于将具有相同键的值集合合并成一个新的值。在 Spark 或类似框架中运行时，首先会对数据集进行分组（即按 key 分类），然后对每个 key 对应的所有 value 应用 valueReducer 函数求和、平均数等聚合操作。

RDD的CombineBykey

夫唯不争，故天下莫能与之争。

10-23

1115

需要对一个KV类型的RDD按照Key进行分组，以前一直用groupBy，但是这个函数比较耗费内存，会首先进行shuffle，数据量比较大的时候，需要把数据都传输过去，所以比较耗费时间及内存，甚至会直接OOM。 CombineBykey在一定程度上优化了groupby，类似于MR中的combine，在shuffle传递之前在map端进行一次合并，这样在数据量很大的时候会减少很多不必要的传输。 C

RDD操作之combineByKey

Gscsd的博客

04-07

592

combineByKey combineByKey 接收三个参数，分别为createCombiner、mergeValue、mergeCombiners createCombiner：用于产生累加器键的初值。如lambda x:(x,1)，实现输入RDD[(K,V)]中V到结果RDD[(K,C)]中C的转换，V 和...

spark RDD算子（五）之键值对聚合操作 combineByKey

qianchun22的博客

11-09

402

章节目录combineByKey案例scala版本Java版本 combineByKey 函数定义 def combineByKey[C](createCombiner: (V) => C, mergeValue: (C, V) => C, mergeCombiners: (C, C) => C): RD createCombiner: combineByKey() 会遍历分区中的所有元素，因此每个元素的键要么还没有遇到过，要么就和之前的某个元素的键相同。如果这是一个新的元素， c

spark算子：combineByKey详解

B11050101的博客

10-19

819

combineByKey是Spark中一个比较核心的高级函数， groupByKey、reduceByKey的底层都是使用combineByKey实现的，所以需要弄清楚它。 def combineByKey[C](createCombiner: (V) => C, mergeValue: (C, V) =&gt...

详解Spark核心算子 : aggregateByKey和combineByKey

超越时代

03-21

2404

详解Spark核心算子 : aggregateByKey和combineByKey aggregateByKey aggregateByKey有三种声明 def aggregateByKey[U: ClassTag](zeroValue: U, partitioner: Partitioner) 　　　　(seqOp: (U, V) => U, combOp: (U, U) =&g...

Spark算子[08]：combineByKey详解

行走的树

12-11

958

combineByKey聚合数据一般在集中式数据比较方便，如果涉及到分布式的数据集，该如何去实现呢。这里介绍一下combineByKey, 这个是各种聚集操作的鼻祖，应该要好好了解一下，可以参考Spark API。更好的，可以将spark的源码包加载到Idea工具中，Spark源码包下载。源码 /** * @see [[combineByKeyWithClassTag]] *

Spark中combineByKey算子详解介绍

CSDN 精品推荐

08-16

407

前几篇博文我们分别讲解了 `reduceByKey` 、`aggregateByKey` 、`foldByKey` ，本文将讲解一个更为通用的聚合函数 `combineByKey` ，上述几种函数其实底层都是调用了这个函数，该函数更为灵活。

sparkRDD高级算子 combineByKey函数详解

chak的博客

05-30

688

combineByKey

spark核心RDD-combineByKey方法解析

qq_41848129的博客

08-21

219

首先先来看看官方文档 combineByKey[C](createCombiner: (V) ⇒C,mergeValue: (C,V) ⇒C,mergeCombiners: (C,C) ⇒C,numPartitions:Int):RDD[(K,C)] 简单的解释下3个重要的函数参数： createCombiner: V => C ，这个函数把当前的值作为参数，...

RDD操作combineByKey学习

yezhirm7的博客

11-21

349

public static void combineByKeyDemo(JavaSparkContext sc){ // JavaPairRDD input = sc.parallelize(Arrays.asList((1,2),(4,1))); JavaPairRDD pariRdd = sc.parallelize(Arrays.asList("a a a d...

RDD-combineByKEY()详解

python -学习笔记

10-13

720

combineByKey() (createCombiner,mergeValue,margeCombiners,partitioner) 最常用的基于key的聚合函数，返回的类型可以和输入的类型不一样许多基于key的聚合函数有用到了它，像groupByKey() combineByKey(): 遍历partition中的元素，元素中的key，要么之前见过，要么不是如果是新元素，则会使用cr...

Spark API 之 combineByKey（一）

weixin_30699235的博客

10-08

146

1 前言 combineByKey是使用Spark无法避免的一个方法，总会在有意或无意，直接或间接的调用到它。从它的字面上就可以知道，它有聚合的作用，对于这点不想做过多的解释，原因很简单，因为reduceByKey、aggregateByKey、foldByKey等函数都是使用它来实现的。 combineByKey是一个高度抽象的聚合函数，可以用于数据的聚合和分组，由它牵出的shu...

深入理解spark高阶算子combineByKey

我爱智能

10-31

1281

深入理解spark的combinebykey算子

Spark算子篇 --Spark算子之combineByKey详解

weixin_34379433的博客

01-07

384

一。概念 rdd.combineByKey(lambda x:"%d_" %x, lambda a,b:"%s@%s" %(a,b), lambda a,b:"%s$%s" %(a,b))三个参数（都是函数）第一个参数：给定一个初始值，用函数生成初始值。第二个参数：combinbe聚合逻辑。第三个参数：reduce端聚合逻辑。二。代码 from pyspark.conf import ...

Spark RDD：分布式数据集详解

"Spark RDD是Spark的核心抽象，它是一种具有容错机制的分布式数据集合，可在集群节点上进行并行操作。RDD被视为只读、分区的记录集合，每个分区可以在不同节点上并行处理。RDD的主要特点包括只读性、分布式、弹性...