第148讲：Spark RDD中Transformation的combineByKey、reduceByKey详解

最新推荐文章于 2023-09-23 20:25:35 发布

段智华

最新推荐文章于 2023-09-23 20:25:35 发布

阅读量1.5k

点赞数 1

分类专栏： SparkInBeiJing Spark shuffle

热烈祝贺Gavin大咖2024年北京航空航天大学两本新书《Transformer&ChatGPT解密：原理、源码及案例》、《Transformer& Rasa 解密: 原理、源码及案例》出版发行

本文链接：https://blog.csdn.net/duan_zhihua/article/details/71248476

版权

SparkInBeiJing 同时被 2 个专栏收录

81 篇文章 203 订阅 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

Spark shuffle

27 篇文章 195 订阅 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

本文详细讲解了Spark RDD中的Transformation操作`combineByKey`和`reduceByKey`。`reduceByKey`类似于Hadoop的combiner，先在mapper端进行局部聚合再传输结果。`combineByKey`允许使用自定义聚合函数对每个Key的值进行组合，提供了`createCombiner`、`mergeValue`和`mergeCombiners`三个函数。通过示例说明了如何使用它们来计算平均数，并强调了不同分区间的合并过程。

摘要由CSDN通过智能技术生成

第148讲：Spark RDD中Transformation的combineByKey、reduceByKey详解

我们看一下PairRDDFunctions.scala的reduceByKey：类似于Hadoop中combiner，reduceByKey在每一个mapper进行本地合并，合并以后才把结果发送给reduce。他调用的其实就是combineByKey。

/**
 * Merge the values for each key using an associative and commutative reduce function. This will
 * also perform the merging locally on each mapper before sending results to a reducer, similarly
 * to a "combiner" in MapReduce.