Spark 高级编程（三）：topn

最新推荐文章于 2024-06-29 15:06:16 发布

威少SOS

最新推荐文章于 2024-06-29 15:06:16 发布

阅读量3.2k

点赞数 1

分类专栏： # spark基础文章标签： spark 冒泡算法 topn算法

本文链接：https://blog.csdn.net/weixin_39966065/article/details/89714043

版权

本文介绍如何使用Spark进行高级编程，以班级为维度，通过冒泡排序算法实现TopN（前三名）数据的获取。详细阐述了整个过程，包括数据聚合和冒泡排序的具体步骤。

摘要由CSDN通过智能技术生成

1.目的

例子：

将上面图片中的数据，以班级为维度，获取到前三名的信息

2.思路

（1）先依据 className进行聚合

（2）使用冒泡排序摘选数据（重点）

3.代码

package cn.spark.study.core;

import java.util.Arrays;
import java.util.Iterator;

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.PairFunction;
import org.apache.spark.api.java.function.VoidFunction;

import scala.Tuple2;

/**
 * 分组取top3
 * @author Administrator
 *
 */
public class ClassTop3 {
	
	public static void main(String[] args) {
		SparkConf conf = new SparkConf()
				.setAppName("ClassTop3")
				.setMas