SparkCore中groupByKey和reduceByKey

最新推荐文章于 2022-05-04 23:32:06 发布

扎西的德勒

最新推荐文章于 2022-05-04 23:32:06 发布

阅读量196

点赞数

分类专栏：大数据文章标签： scala big data spark

本文链接：https://blog.csdn.net/sinat_30371347/article/details/120041892

版权

本文详细介绍了Spark中groupByKey和reduceByKey两个关键操作的原理与性能差异。groupByKey会导致全量数据shuffle，可能引发GC问题和数据倾斜；而reduceByKey则在map阶段先做局部聚合，减少网络传输和资源消耗。文章通过实例展示了如何使用这两个函数求解相同key的value之和，并比较了它们在实际应用中的效果。

摘要由CSDN通过智能技术生成

一、概念

groupByKey([numTasks])
在一个(K,V)的RDD上调用，返回一个(K, Iterator[V])的RDD

reduceByKey(func, [numTasks])
在一个(K,V)的RDD上调用，返回一个(K,V)的RDD，使用指定的reduce函数，将相同key的值聚合到一起，与groupByKey类似，reduce任务的个数可以通过第二个可选的参数来设置

二、性能

groupByKey
全局聚合算子，将所有map task中的数据都拉取到shuffle中将key相同的数据进行聚合，它存在很多弊端，例如：将大量的数据进行网络传输，浪费大量的资源，最重要的是如果数据量太大还会出现GC和OutOfMemoryError的错误，如果数据某个key的数据量远大于其他key的数据，在进行全局聚合的时候还会出现数据倾斜的问题。

reduceByKey
在map阶段进行本地聚合以后才会到shuffle中进行全局聚合，相当于是进入shuffle之前已经做了一部分聚合，那么它的网络传输速度会比groupbykey快很多而且占用资源也会减少很多，但是算子本身就如它的名字一样，主要是进行计算的将相同key的数据进行计算，返回计算结果。

reduceByKey相当于groupByKey+mapValues

mapValues
mapValues顾名思义就是输入函数应用于RDD中Kev-Value的Value，原RDD中的Key保持不变，与新的Value一起组成新的RDD中的元素。因此，该函数只适用于元素为KV对的RDD

三、应用

场景：按照key分组求对应的value之和

# 数据准备rdd1
scala> val rdd1 = sc.parallelize(List(("Tom",1),("Jerry",3),("Kitty",2)))
rdd1: org.apache.spark.rdd.RDD[(String, Int)] = ParallelCollectionRDD[0] at parallelize at <console>:24

# 数据准备rdd2
scala> val rdd2 = sc.

最低0.47元/天解锁文章

扎西的德勒

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
SparkCore中groupByKey和reduceByKey

一、概念groupByKey([numTasks])在一个(K,V)的RDD上调用，返回一个(K, Iterator[V])的RDDreduceByKey(func, [numTasks])在一个(K,V)的RDD上调用，返回一个(K,V)的RDD，使用指定的reduce函数，将相同key的值聚合到一起，与groupByKey类似，reduce任务的个数可以通过第二个可选的参数来设置二、性能groupByKey全局聚合算子，将所有map task中的数据都拉取到shuffle中将key相同的数
复制链接

扫一扫

专栏目录