155、Spark内核原理进阶之cogroup算子内部实现原理

首先看一段代码

    public static void cogroup2() {
        // 创建SparkConf
        SparkConf sparkConf = new SparkConf().setAppName("cogroupJava").setMaster("local");
        // 创建JavaSparkContext
        JavaSparkContext javaSparkContext = new JavaSparkContext(sparkConf);

        // 创建集合
        List<Tuple2<String, Integer>> words1 = Arrays.asList(
                new Tuple2<String, Integer>("hello", 1),
                new Tuple2<String, Integer>("hello", 1),
                new Tuple2<String, Integer>("world", 1),
                new Tuple2<String, Integer>("hello", 1),
                new Tuple2<String, Integer>("you", 1)
        );

        List<Tuple2<String, Integer>> words2 = Arrays.asList(
                new Tuple2<String, Integer>("hello", 1),
                new Tuple2<String, Integer>("world", 1),
                new Tuple2<String, Integer>("hello", 1),
                new Tuple2<String, Integer>("you", 1)
        );


        // 并行化集合,创建初始化RDD
        JavaPairRDD<String, Integer> words1RDD = javaSparkContext.parallelizePairs(words1);
        JavaPairRDD<String, Integer> words2RDD = javaSparkContext.parallelizePairs(words2);

        // 使用cogroup算子关联两个RDD
        // 相当于是,一个key join上的所有value,都给放到一个Iterable里面去了
        // cogroup,不太好讲解,希望通过动手编写我们的案例,仔细体会其中的奥妙
        JavaPairRDD<String, Tuple2<Iterable<Integer>, Iterable<Integer>>> studentScore = words1RDD.cogroup(words2RDD);
        studentScore.foreach(new VoidFunction<Tuple2<String, Tuple2<Iterable<Integer>, Iterable<Integer>>>>() {
            @Override
            public void call(Tuple2<String, Tuple2<Iterable<Integer>, Iterable<Integer>>> t) throws Exception {
                System.out.println(t._1);
                System.out.println(t._2._1);
                System.out.println(t._2._2);
                System.out.println("===============================");
            }
        });

        // 关闭javaSparkContext
        javaSparkContext.close();

    }

看图

 

13274599-ce7706c8d1512241.png

cogroup.png

cogroup算子

  1. 基础的算子
  2. 在我们大量的实践中,很少遇到说要用cogroup算子的情况
  3. cogroup算子是其他很多算子的基础,比如join

可以把上面那段代码跑一下,其实就是将两个个rdd的key对应的value值分别封装到一个Iterator中去

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值