Spark之TopN

package com.uplooking.bigdata.core.p3;
 
import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.PairFunction;
import org.apache.spark.broadcast.Broadcast;
import scala.Tuple2;
 
import java.util.List;
import java.util.TreeSet;
 
/**
 * Java版本求出TopN的数据
 学生所在班级 学生成绩
     class1 90
     class2 56
     class1 90
     class1 76
     class2 88
     class1 95
     class1 74
     class2 87
     class2 67
     class2 77
     class1 98
     class2 96
 要求,求出成绩前五名(N=5)的同学,想求出N=3的同学的信息
 
 第二题:
    在上述的基础之上进行修正,分别求出每个班级中排名前3的同学的信息
 */
public class JavaSparkTopNOps {
    public static void main(String[] args) {
        if(args == null || args.length < 1) {
            System.err.println("Parameter Errors! Usage: <topNum[Integer]>");
            System.exit(-1);
        }
        SparkConf conf = new SparkConf();
        conf.setAppName(JavaSparkTopNOps.class.getSimpleName());
        conf.setMaster("local");
        JavaSparkContext sc = new JavaSparkContext(conf);
        JavaRDD<String> linesRDD = sc.textFile("E:/test/spark/topn.txt");
        int topNum = Integer.valueOf(args[0].trim());
        //第一题
//        topn_1(linesRDD, topNum);
        //第二题
        Broadcast<Integer> topNBC = sc.broadcast(topNum);
        topn_2(linesRDD, topNBC);
        sc.close();
    }
 
    /**
     * 分组topN
     * 分别求出每个班级中排名前N的同学的信息
     *
     * 按照班级名称,对班级学生进行分组,分组之后可以得到每一个分组中的数据,然后再来对每一个组中的数据进行排序
     * 只需要取出这每一个组中的前N名的学生信息即可
     * 在这里显然要是用groupByKey的transformation算子
     * hello you
     * hello me
     * hello me
     * mapToPair之后的结果
     * (hello, 1)
     * (you, 1)
     * (hello, 1)
     * (me, 1)
     * (hello, 1)
     * (me, 1)
     * groupByKey--->
     * (hello, [1, 1, 1])
     * (you, [1])
     * (me, [1, 1])
     * 类比到我们这道题,我们只需要控制hello,me,you后面的列表的size就可以了
     * @param linesRDD
     */
    private static void topn_2(JavaRDD<String> linesRDD, Broadcast<Integer> topNBC) {
        JavaPairRDD<String, Integer> pairRDD = linesRDD.mapToPair(line -> {
            String[] splits = line.split(" ");
            int score = Integer.valueOf(splits[1].trim());
            String className = splits[0].trim();
            return new Tuple2<String, Integer>(className, score);
        });
 
        JavaPairRDD<String, Iterable<Integer>> gbkRDD = pairRDD.groupByKey();
        //class1 [90, 90, 76]
        //class2 [56, 88, 87]
        JavaPairRDD<String, Iterable<Integer>> myGbkRDD = gbkRDD.mapToPair(new PairFunction<Tuple2<String,Iterable<Integer>>, String, Iterable<Integer>>() {
            private TreeSet<Integer> ts = new TreeSet<Integer>(new MyComparator<Integer>(){
                @Override
                public int compare(Integer o1, Integer o2) {
                    return o2 - o1;
                }
            });
            @Override
            public Tuple2<String, Iterable<Integer>> call(Tuple2<String, Iterable<Integer>> src) throws Exception {
                String className = src._1;
                Iterable<Integer> scores = src._2;
                ts.clear();
                /**
                 * 第一步对这个列表scores进行排序
                 * 第二步然后取出这个列表中的前N个值,组成一个新的Iterable<Integer>
                 */
                for(int score : scores) {
                    ts.add(score);//将数据加入到treeset集合中
                    if(ts.size() > topNBC.value()) {//加入集合之后对集合的大小进行判断,因为我们只需要求出TopN(N=3),所以只需要维持treeset集合大小为N即可
                        ts.pollLast();
                    }
                }
                return new Tuple2<String, Iterable<Integer>>(className, ts);
            }
        });
 
        myGbkRDD.foreach(t -> System.out.println(t._1 + " " + t._2));
    }
 
    private static void topn_1(JavaRDD<String> linesRDD, int topNum) {
        JavaPairRDD<Integer, String> pairRDD = linesRDD.mapToPair(line -> {
            String[] splits = line.split(" ");
            int score = Integer.valueOf(splits[1].trim());
            String className = splits[0].trim();
            return new Tuple2<Integer, String>(score, className);
        });
 
        List<Tuple2<Integer, String>> topn = pairRDD.sortByKey(false).take(topNum);
        for (Tuple2<Integer, String> t : topn) {
            System.out.println("className: " + t._2 + ", score: " + t._1);
        }
    }
 
}
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值