spark小案例

最新推荐文章于 2023-05-15 16:32:52 发布

求你们别黑程序员了

最新推荐文章于 2023-05-15 16:32:52 发布

阅读量657

点赞数 1

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_36314385/article/details/82896189

版权

题目：给定一组键值对("spark",2),("hadoop",6),("hadoop",4),("spark",6)，键值对的key表示图书名称，value表示某天图书销量，请计算每个键对应的平均值，也就是计算每种图书的每天平均销量。

//对数组执行parallelize(),得到Array[(String, Int)] = Array((spark,2), (hadoop,6), (hadoop,4), (spark,6))的结果

1.var rdd = sc.parallelize(Array(("spark",2),("hadoop",6),("hadoop",4),("spark",6)))

方法A：

//把key相同的key对应的值放到Iterable集合内，得到 Array[(String, Iterable[Int])] = Array((spark,CompactBuffer(2, 6)), (hadoop,CompactBuffer(6, 4)))的结果

2.var groupRdd = rdd.groupByKey

// x 代表groupRdd的每一个元素，第一个为(spark,CompactBuffer(2, 6))，第二个为(hadoop,CompactBuffer(6, 4))。

//._1代表取出这个元组的第一部分，即spark或hadoop

//._2代表取出第二部分，即（2，6）或（6，4），对该集合调用sum()为求和，size()为计算集合中有多少个元素

备注：对rdd随时进行.collect方便得知rdd的内容

3.var result = groupRdd.map(x => (x._1,x._2.sum / x._2.size))

得到Array[(String, Int)] = Array((spark,4), (hadoop,5))

方法B：

1.var d = rdd.mapValues(x => (x,1) )

得到Array[(String, (Int, Int))] = Array((spark,(2,1)), (hadoop,(6,1)), (hadoop,(4,1)), (spark,(6,1)))

2.var dd = d.reduceByKey((x,y)=>(x._1+y._1,x._2+y._2))

得到Array[(String, (Int, Int))] = Array((spark,(8,2)), (hadoop,(10,2)))

3.var ddd = dd.mapValues(x => x._1/x._2)

得到Array[(String, Int)] = Array((spark,4), (hadoop,5))

求你们别黑程序员了

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
spark小案例

题目：给定一组键值对("spark",2),("hadoop",6),("hadoop",4),("spark",6)，键值对的key表示图书名称，value表示某天图书销量，请计算每个键对应的平均值，也就是计算每种图书的每天平均销量。//对数组执行parallelize(),得到Array[(String, Int)] = Array((spark,2), (hadoop,6), (ha...
复制链接

扫一扫

求你们别黑程序员了 CSDN认证博客专家 CSDN认证企业博客

码龄8年

1: 原创

210万+: 周排名

46万+: 总排名

657: 访问

: 等级

18: 积分

0: 粉丝

1: 获赞

0: 评论

2: 收藏

私信

关注

热门文章

spark小案例 657

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。