spark小案例

题目:给定一组键值对("spark",2),("hadoop",6),("hadoop",4),("spark",6),键值 对的key表示图书名称,value表示某天图书销量,请计算每个键对应的平均值, 也就是计算每种图书的每天平均销量。

//对数组执行parallelize(),得到Array[(String, Int)] = Array((spark,2), (hadoop,6), (hadoop,4), (spark,6))的结果

1.var rdd = sc.parallelize(Array(("spark",2),("hadoop",6),("hadoop",4),("spark",6)))

方法A:

//把key相同的key对应的值放到Iterable集合内,得到 Array[(String, Iterable[Int])] = Array((spark,CompactBuffer(2, 6)), (hadoop,CompactBuffer(6, 4)))的结果

2.var groupRdd = rdd.groupByKey

 

// x 代表groupRdd的每一个元素,第一个为(spark,CompactBuffer(2, 6)),第二个为(hadoop,CompactBuffer(6, 4))。

//._1代表取出这个元组的第一部分,即spark或hadoop

//._2代表取出第二部分,即(2,6)或(6,4),对该集合调用sum()为求和,size()为计算集合中有多少个元素

备注:对rdd随时进行.collect方便得知rdd的内容

3.var result = groupRdd.map(x => (x._1,x._2.sum / x._2.size))

得到Array[(String, Int)] = Array((spark,4), (hadoop,5))

方法B:

1.var d = rdd.mapValues(x => (x,1) )

得到Array[(String, (Int, Int))] = Array((spark,(2,1)), (hadoop,(6,1)), (hadoop,(4,1)), (spark,(6,1)))

2.var dd = d.reduceByKey((x,y)=>(x._1+y._1,x._2+y._2))

得到Array[(String, (Int, Int))] = Array((spark,(8,2)), (hadoop,(10,2)))

3.var ddd = dd.mapValues(x => x._1/x._2)

得到Array[(String, Int)] = Array((spark,4), (hadoop,5))


 

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值