spark常用RDD算子 - foldByKey

foldByKey函数是对PairRDD<K, V>,对V做合并处理

可以看到,第一个参数是zeroValue,这个就是用来对原始的V做合并操作的,后面的参数是一个JFunction操作。

对于一个PairRDD,如Array(("A",0),("A",2),("B",1),("B",2),("C",1))
进行foldByKey(2)、并且function是x+y的操作时,运算过程是这样的,
先将2去加上key为"A"的第一个元素的value,变成了("A", 2),然后拿这个初始化的结果再去执行"A"与后续元素,结果就是("A", 4)。
对于key为"B"的结果就是("B", 5)

foldByKey 算子代码示例

List<Tuple2<String, Integer>> data = new ArrayList<>();
data.add(new Tuple2<>("A", 10));
data.add(new Tuple2<>("A", 20));
data.add(new Tuple2<>("B", 2));
data.add(new Tuple2<>("B", 3));
data.add(new Tuple2<>("C", 5));

//2*10*20 =400
//2*2*3=12
//2*5=10

JavaPairRDD<String, Integer> originRDD = javaSparkContext.parallelizePairs(data);
//初始值为2,那么就会将2先与第一个元素做一次Function操作,将结果再与下一个元素结合
JavaPairRDD<String, Integer> stringIntegerJavaPairRDD = originRDD.foldByKey(2, new Function2<Integer, Integer, Integer>() {
            @Override
            public Integer call(Integer v1, Integer v2) throws Exception {
                return v1 * v2;
            }
        });
        
System.out.println(stringIntegerJavaPairRDD.collect());
//foldByKey算子运行的结果如下
//[(B,12), (A,400), (C,10)]

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值