Spark 实现TopN的问题(groupBy)

[b]t2.txt[/b]
ab 11 
ab 23
ab 13
ab 44
bb 32
bb 88



// 读取文件
var lines = sc.textFile("/test/t2.txt")
// 对键值进行分组
var ss = lines.map(_.split(" ")).map(f=>(f(0),f(1))).groupBy(f=>f._1)
// 转换成(xx,List(1,23)) 格式 需要转换成整型
var st = ss.map(f=>{var x = f._1;var y=f._2;(x,y.map(_._2.toInt))})
// 得到每个键值前三的数组 格式 (aa,List(122,90,80)) Iterator没有sorted方法所以需要toArray
var result = st.map(f=>{var y = f._2;(f._1,y.toArray.sorted.reverse.take(3))})



[color=red][b]groupBy的操作必须对元组进行操作[/b][/color]
[size=medium][color=blue][b]倒序需要用sorted.reverse结合使用[/b][/color][/size]
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值