reduceByKey

最新推荐文章于 2024-06-02 21:22:03 发布

DemonHunter211

最新推荐文章于 2024-06-02 21:22:03 发布

阅读量1k

点赞数 2

分类专栏： Hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/kwame211/article/details/87088627

版权

Hadoop 专栏收录该内容

199 篇文章 5 订阅

订阅专栏

例子一
按key求和
val rdd = sc.parallelize(List((“a”,2),(“b”,3),(“a”,3)))

合并key计算
val r1 = rdd.reduceByKey((x,y) => x + y)

输出结果如下

(a,5)
(b,3)

例子二
若有一些spark书和Hadoop的书，要求两本书各自销量的平均值
数据如下

("spark",10)
("spark",20)
("hadoop",4)
("hadoop",10)

先创建一个rdd

val rdd = sc.parallelize(List(("spark",10),("hadoop",4),("hadoop",10),("spark",20)))
1
分析下数据，要想求平均值，必须算出总的价格，要对不同书进行分组，求每组书的数量

val r2 = rdd.mapValues(x => (x,1))
1
因为mapValues是对值的操作,不操作key，打印结果如下

(spark,(10,1))
(hadoop,(4,1))
(hadoop,(10,1))
(spark,(20,1))

接着需要按key进行reduce，让key合并

val r3 = r2.reduceByKey((x,y) => (x._1+y._1, x._2+y._2))
1
变量说明：
当将spark进行reduce后
这里的(x,y) 表示的是(10,1)(20,1)
x._1 表示10， x._2表示1
y._1表示20， y._2表示1
这样通过计算得到的就是如下结果

(spark,(30,2))
(hadoop,(14,2))

接着要对value进行操作，用mapValues()就行啦

val r4 = r3.mapValues(x => x._1 / x._2)

打印结果如下

(spark,15)
(hadoop,7)

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
reduceByKey

例子一按key求和 val rdd = sc.parallelize(List((“a”,2),(“b”,3),(“a”,3)))合并key计算 val r1 = rdd.reduceByKey((x,y) =&gt; x + y)输出结果如下(a,5)(b,3) 例子二若有一些spark书和Hadoop的书，要求两本书各自销量的平均值数据如下("spark",...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。