Spark Core 和 Spark SQL 实现分组取Top N(基于scala)

最新推荐文章于 2024-05-13 18:49:56 发布

wftt

最新推荐文章于 2024-05-13 18:49:56 发布

阅读量5.9k

点赞数 1

分类专栏： Spark从入门到转行文章标签：大数据 spark spark core spark sql 分组Top N

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_24674131/article/details/80930624

版权

分组取Top N在日常需求中很多见：

每个班级分数前三名同学的名字以及分数
各省指标数量前三的市的名字

等等需求，主要思想就是在某一个分区（班级，省）中取出该分区Top N的数据

测试数据格式：

如上图，字段含义为，班级，学生姓名，分数

下面我们通过一个Demo来实现各班级分数前三的学生姓名以及分数

1、通过Spark core 实现：

//读取测试数据保存为rdd

val rddtext = sc.textFile("file:///C:/Users/chunyuhe/Desktop/test1.txt")

//将数据转化为Row形式（为下面Spark SQL 生成临时表用）

val rowrdd = rddtext.map(m => Row(m.split(" ")(0), m.split(" ")(1), m.split(" ")(2).toInt))
/**
* spark core 实现分组取topN
*/

val classrdd = rddtext.map(x => {

最低0.47元/天解锁文章

关注

1
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
Spark Core 和 Spark SQL 实现分组取Top N(基于scala)

分组取Top N在日常需求中很多见：每个班级分数前三名同学的名字以及分数各省指标数量前三的市的名字等等需求，主要思想就是在某一个分区（班级，省）中取出该分区Top N的数据测试数据格式：如上图，字段含义为，班级，学生姓名，分数下面我们通过一个Demo来实现各班级分数前三的学生姓名以及分数1、通过Spark core 实现：//读取测试数据保存为rdd...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。