Spark算子 reduceByKey与countByKey区别及用法

最新推荐文章于 2024-07-16 20:32:10 发布

努力的乞丐

最新推荐文章于 2024-07-16 20:32:10 发布

阅读量778

点赞数

文章标签： spark 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ouzhong11/article/details/127428224

版权

1、相同点：

两者都会根据 key 来分组

2、不同点：

1) reduceByKey:Transormation类算子,根据用户传入的聚合逻辑对数组内的数据进行聚合,懒策略,延迟计算,在 shuffle 之前有 combine（预聚合：分区内聚合）操作，返回结果是 RDD[k,v]
2) countByKey:Action类算子,不需要用户传入聚合逻辑，直接对数组内的数据进行统计记录数,触发计算，countByKey 适用于不关心 value 具体内容，只需知道相同 key 有多少个 value 的情况。

例如下面有个 rdd:
rdd=sc.parallelize([(“a”,1),(“b”,1),(“a”,1),(“a”,2),(“b”,3)])

rdd.reduceByKey(lambdax,y:(x+y))
rdd.reduceByKey(lambdax,y:(x+y)).collect()
输出：[(‘b’,4),(‘a’,4)]

Tips:不会立马进行 shuffle,遇到action算子操进行计算，且根据传入的集合逻辑进行输出

操作：rdd.countByKey()
输出：defaultdict(<class’int’>,{‘a’:3,‘b’:2})，

Tips:只计算 key 有多少个 value,"a"有 3 个 value,"b"有 2 个 value

努力的乞丐

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark算子 reduceByKey与countByKey区别及用法

reduceByKey与countByKey区别
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。