Spark SQL案例：分组排行榜

最新推荐文章于 2024-07-11 11:37:37 发布

green -hand

最新推荐文章于 2024-07-11 11:37:37 发布

阅读量166

点赞数

文章标签：大数据

本文链接：https://blog.csdn.net/s_caiji/article/details/125431739

版权

本文介绍了如何使用Spark SQL处理大数据场景中常见的分组求TopN需求。通过一个学生成绩的例子，详细讲解了从创建Maven项目，设置依赖，到读取数据，按键分组，按值排序并取每组前三的步骤。最后通过交互式操作展示了中间结果和最终输出。

摘要由CSDN通过智能技术生成

一、提出任务

张三丰 90
李孟达 85
张三丰 87
王晓云 93
李孟达 65
张三丰 76
王晓云 78
李孟达 60
张三丰 94
王晓云 97
李孟达 88
张三丰 80
王晓云 88
李孟达 82
王晓云 98

同一个学生有多门成绩，现需要计算每个学生分数最高的前3个成绩，期望输出结果如下所示：

张三丰：94 90 87
李孟达：88 85 82
王晓云：98 97 93

预备工作：启动集群的HDFS与Spark

关注