Spark RDD算子(三) mapToPair,flatMapToPair

mapToPair

此函数会对一个RDD中的每个元素调用f函数,调用f函数后会进行一定的操作把每个元素都转换成一个<K,V>类型的对象,例如:rdd1中包含hello、world元素,经f函数转换后,可以变成类似<hello,1>,<world,1>这样的键值对形式

scala版本

scala没有该函数,只需要利用map即可实现

val rdd1 = sc.parallelize(List("hello","java","scala","world"))
rdd1.map((_,1)).collect.foreach(println)

在这里插入图片描述

java版本

JavaRDD<String> rdd1 = sc.parallelize(Arrays.asList("hello", "java", "scala", "world"));
JavaPairRDD<String, Integer> stringIntegerJavaPairRDD = rdd1.mapToPair(new PairFunction<String, String, Integer>() {
    @Override
    public Tuple2<String, Integer> call(String s) throws Exception {
        return new Tuple2<>(s, 1);
    }
});
List<Tuple2<String, Integer>> collect = stringIntegerJavaPairRDD.collect();
for (Tuple2<String, Integer> tuple2 : collect) {
    System.out.println(tuple2);
}

在这里插入图片描述

flatMapToPair

此函数相对于mapToPair多了个flatMap的功能,它能够将元素拆分后在转换成键值对,常见的有单词拆分

scala版本

scala中同样没有该函数,可以利用flatMap和map两个算子实现

val rdd1 = sc.parallelize(List("hello world","hello scala","word count"))
val flatMapRDD = rdd1.flatMap(x=>x.split(" "))
flatMapRDD.map((_,1)).collect.foreach(println)

在这里插入图片描述

java版本

和flatMap一样,在spark 2.0版本以上,faltaMapToPair也做了一些改动,主要是主要是iterator和iteratable的一些区别

  • spark 2.0以上
JavaRDD<String> rdd1 = sc.parallelize(Arrays.asList("hello world", "hello scala", "word count"));
JavaPairRDD<String, Integer> stringIntegerJavaPairRDD = rdd1.flatMapToPair(new PairFlatMapFunction<String, String, Integer>() {
    @Override
    public Iterator<Tuple2<String, Integer>> call(String s) throws Exception {
        List<Tuple2<String, Integer>> list = new ArrayList<>();
        String[] strings = s.split(" ");
        for (String s1 : strings) {
            list.add(new Tuple2<>(s1, 1));
        }
        return list.iterator();
    }
});
List<Tuple2<String, Integer>> collect = stringIntegerJavaPairRDD.collect();
for (Tuple2<String, Integer> t : collect) {
    System.out.println(t);
}

在这里插入图片描述

  • spark 2.0以下
rdd1.flatMapToPair(new PairFlatMapFunction<String, String, Integer>() {
    @Override
    public Iterable<Tuple2<String, Integer>> call(String s) throws Exception {
        List<Tuple2<String, Integer>> list = new ArrayList<>();
        String[] strings = s.split(" ");
        for (String s1 : strings) {
            list.add(new Tuple2<>(s1, 1));
        }
        return list;
    }
});
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值