Spark Core 和 Spark SQL 实现分组取Top N(基于scala)

分组取Top N在日常需求中很多见:

 

  1. 每个班级分数前三名同学的名字以及分数
  2. 各省指标数量前三的市的名字 

等等需求,主要思想就是在某一个分区(班级,省)中取出该分区Top N的数据

测试数据格式:

如上图,字段含义为,班级,学生姓名,分数

下面我们通过一个Demo来实现各班级分数前三的学生姓名以及分数

1、通过Spark core 实现:

//读取测试数据保存为rdd

 

val rddtext = sc.textFile("file:///C:/Users/chunyuhe/Desktop/test1.txt")

//将数据转化为Row形式(为下面Spark SQL 生成临时表用)

val rowrdd = rddtext.map(m => Row(m.split(" ")(0), m.split(" ")(1), m.split(" ")(2).toInt))
/**
* spark core 实现分组取topN
*/

val classrdd = rddtext.map(x => {

         

  • 1
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值