spark cogroup操作

最新推荐文章于 2021-09-02 13:55:47 发布

fjr_huoniao

最新推荐文章于 2021-09-02 13:55:47 发布

阅读量1.8k

点赞数

分类专栏： spark 文章标签： spark cogroup

本文链接：https://blog.csdn.net/kimyoungvon/article/details/51417910

版权

spark 专栏收录该内容

29 篇文章 1 订阅

订阅专栏

private static void cogroup() {
       // 创建SparkConf
       SparkConf conf = new SparkConf()
               .setAppName("cogroup")
               .setMaster("local");
       // 创建JavaSparkContext
       JavaSparkContext sc = new JavaSparkContext(conf);

       // 模拟集合
       List<Tuple2<Integer, String>> studentList = Arrays.asList(
               new Tuple2<Integer, String>(1, "leo"),
               new Tuple2<Integer, String>(2, "jack"),
               new Tuple2<Integer, String>(3, "tom"));

       List<Tuple2<Integer, Integer>> scoreList = Arrays.asList(
               new Tuple2<Integer, Integer>(1, 100),
               new Tuple2<Integer, Integer>(2, 90),
               new Tuple2<Integer, Integer>(3, 60),
               new Tuple2<Integer, Integer>(1, 70),
               new Tuple2<Integer, Integer>(2, 80),
               new Tuple2<Integer, Integer>(3, 50));

       // 并行化两个RDD
       JavaPairRDD<Integer, String> students = sc.parallelizePairs(studentList);
       JavaPairRDD<Integer, Integer> scores = sc.parallelizePairs(scoreList);

       // cogroup与join不同
       // 相当于是，一个key join上的所有value，都给放到一个Iterable里面去了
       // cogroup，不太好讲解，希望大家通过动手编写我们的案例，仔细体会其中的奥妙
       JavaPairRDD<Integer, Tuple2<Iterable<String>, Iterable<Integer>>> studentScores =
               students.cogroup(scores);

       // 打印studnetScores RDD
       studentScores.foreach(

               new VoidFunction<Tuple2<Integer,Tuple2<Iterable<String>,Iterable<Integer>>>>() {

                   private static final long serialVersionUID = 1L;

                   @Override
                   public void call(
                           Tuple2<Integer, Tuple2<Iterable<String>, Iterable<Integer>>> t)
                           throws Exception {
                       System.out.println("student id: " + t._1);
                       System.out.println("student name: " + t._2._1);
                       System.out.println("student score: " + t._2._2);
                       System.out.println("===============================");
                   }

               });

       // 关闭JavaSparkContext
       sc.close();

运行结果：

student id: 1
student name: [leo]
student score: [100, 70]
===============================
student id: 3
student name: [tom]
student score: [60, 50]
===============================
student id: 2
student name: [jack]
student score: [90, 80]
===============================