reduceByKey、foldByKey、aggregateByKey、combineByKey的区别

2hu1

已于 2022-09-23 09:45:31 修改

阅读量551

点赞数 1

文章标签： spark

于 2022-09-23 09:39:17 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/c792558402/article/details/127004587

版权

本文详细介绍了Spark中的四个关键操作：reduceByKey、foldByKey、aggregateByKey和combineByKey，包括它们的定义、操作流程、区别及使用场景。reduceByKey和foldByKey在Map端和Reduce端的聚合规则相同，但foldByKey有一个初始值参与聚合。aggregateByKey允许Map端和Reduce端的聚合规则不同，并有一个初始值。而combineByKey则更灵活，不仅聚合规则可异，还允许根据数据转换结构。这四个操作常用于按Key分组聚合RDD。

摘要由CSDN通过智能技术生成

思考 :
reduceByKey、flodByKey、aggregateByKey、combineByKey 的区别？
本质区别 : Map端聚合和Reduce聚合规则是否相同,是不是要在Map的实现合并器

reduceByKey
1. 定义
  def reduceByKey(partitioner: Partitioner, func: (V, V) => V): RDD[(K, V)]
2. 操作流程
  1. 在每个分区节点上将数据根据key 分组 (相当于Mr中的map方法)
    输出 key,iter(value1,value2…)
  2. 在每个分区节点上将分组后的数据进行合并 (相当于Mr中的map端合并)
    合并流程
    输入 : key,iter(value1,value2…)
    func(func(value1,value2),value3)… => 聚合结果和value1类型一致
    从左往右依次聚合
    输出 key,value
  3. 每个分区处理完后, reduce端会拉取处理结果,并对数据根据key 进行reduce操作 (相当于Mr中的reduce方法)
    合并流程
    输入 : key,iter(value1,value2…)
    func(func(value1,value2),value3)…
    从左往右依次聚合
    输出 key,value
  4. 对处理完的结果数据,根据指定的分区器,将结果分区(可选)
    不指定时,使用默认分区器,分区个数和父Rdd保持一致
3. note
  1. reduceByKey相当于Mr程序,开启了Map端合并,且合并规则和reduce规则相同
  2. reduceByKey 只能将 Rdd[K,V]转换成 Rdd[K,V]
    Key、Value的类型不会改变
    示例 Rdd[String,Int] reduceByKey

最低0.47元/天解锁文章

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。