reduce和reduceByKey的区别

最新推荐文章于 2021-01-29 14:13:59 发布

lucasmaluping

最新推荐文章于 2021-01-29 14:13:59 发布

阅读量1.2k

点赞数

分类专栏： Spark

本文链接：https://blog.csdn.net/lucasmaluping/article/details/103118293

版权

Spark 专栏收录该内容

41 篇文章 1 订阅

订阅专栏

reduce和reduceByKey的区别
1、reduce：把RDD中的每一个元素拿出来处理并形成一个新的RDD元素

2、reduceByKey，把RDD中的key相同的一组数据拿出来处理，形成一个RDD里面放的是元组

reduce和reduceByKey是spark中使用地非常频繁的，在字数统计中，可以看到reduceByKey的经典使用。那么reduce和reduceBykey的区别在哪呢？reduce处理数据时有着一对一的特性，而reduceByKey则有着多对一的特性。比如reduce中会把数据集合中每一个元素都处理一次，并且每一个元素都对应着一个输出。而reduceByKey则不同，它会把所有key相同的值处理并且进行归并，其中归并的方法可以自己定义。

例子
在单词统计中，我们采用的就是reduceByKey，对于每一个单词我们设置成一个键值对（key，value），我们把单词作为key，即key=word，而value=1，因为遍历过程中，每个单词的出现一次，则标注1。那么reduceByKey则会把key相同的进行归并，然后根据我们定义的归并方法即对value进行累加处理，最后得到每个单词出现的次数。而reduce则没有相同Key归并的操作，而是将所有值统一归并，一并处理。

spark的reduce
我们采用scala来求得一个数据集中所有数值的平均值。该数据集包含5000个数值，数据集以及下列的代码均可从github下载，数据集名称为"avg"。为求得这个数据集中的平均值，我们先用map对文本数据进行处理，将其转换成long类型。

数据集内容：

reduce求平均值scala实现

import org.apache.spark.{SparkConf, SparkContext}

object SparkReduce {

  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setMaster("local").setAppName("SparkReduce")

    val sc = new SparkContext(conf)

    //将String转成Long类型
    val numData = sc.textFile("./avg").map(num => num.toLong)

    //reduce处理每个值
    println(numData.reduce((x,y)=>{
      println("x:"+x)
      println("y:"+y)
      x+y
    })/numData.count())

  }

}

reduce求平均值Java实现

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.Function;
import org.apache.spark.api.java.function.Function2;

public class SparkReduceJava {

    public static void main(String[] main){

        SparkConf conf = new SparkConf().setAppName("SparkReduceJava").setMaster("local");


        JavaSparkContext sc = new JavaSparkContext(conf);

        reduceJava(sc);

        reduceJava8(sc);
    }


    public static void reduceJava(JavaSparkContext sc){
        JavaRDD<Long>textData = sc.textFile("./avg").map(new Function<String, Long>() {
            @Override
            public Long call(String s) throws Exception {
                return Long.parseLong(s);
            };
        });

        System.out.println(
                textData.reduce(new Function2<Long, Long, Long>() {
                    @Override
                    public Long call(Long aLong, Long aLong2) throws Exception {
                        System.out.println("x:"+aLong);
                        System.out.println("y:"+aLong2);
                        return aLong+aLong2;
                    }
                })/textData.count()
        );
    }

    public static void reduceJava8(JavaSparkContext sc){
        JavaRDD<Long>textData = sc.textFile("./avg").map(s->Long.parseLong(s));
        System.out.println(textData.reduce((x,y)->x+y)/textData.count());
    }

}

spark的reduceByKey
spark的reduceByKey对要处理的值进行了差别对待，只有key相同的才能进行reduceByKey，则也就要求了进行reduceByKey时，输入的数据必须满足有键有值。由于上述的avg我们是用随机数生成的，那么我们可以用reduceByKey完成一个其他功能，即统计随机数中末尾是0-9各个数值出现的个数。
scala实现

import org.apache.spark.{SparkConf, SparkContext}

object SparkReduceByKey {

  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setMaster("local").setAppName("SparkReduce")

    val sc = new SparkContext(conf)

    //将String转成Long类型
    val numData = sc.textFile("./avg").map(num => (num.toLong%10,1))

    numData.reduceByKey((x,y)=>x+y).foreach(println(_))
  }

}

java实现

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.Function2;
import org.apache.spark.api.java.function.PairFunction;
import scala.Tuple2;

public class SparkReduceByKeyJava {

    public static void main(String[] main){

        SparkConf conf = new SparkConf().setAppName("SparkReduceJava").setMaster("local");


        JavaSparkContext sc = new JavaSparkContext(conf);

        reduceByKeyJava(sc);

        reduceByKeyJava8(sc);

    }


    public static void reduceByKeyJava(JavaSparkContext sc){

        JavaPairRDD<Integer,Integer> numData = sc.textFile("./avg").mapToPair(new PairFunction<String, Integer, Integer>() {
            @Override
            public Tuple2<Integer, Integer> call(String s) throws Exception {
                return new Tuple2<Integer, Integer>(Integer.parseInt(s)%10,1);
            }
        });


        System.out.println(numData.reduceByKey(new Function2<Integer, Integer, Integer>() {
            @Override
            public Integer call(Integer integer, Integer integer2) throws Exception {
                return integer+integer2;
            }
        }).collectAsMap());

    }

    public static void reduceByKeyJava8(JavaSparkContext sc){
        JavaPairRDD<Integer,Integer> numData = sc.textFile("./avg").mapToPair(s->new Tuple2<>(Integer.parseInt(s)%10,1));

        System.out.println(numData.reduceByKey((x,y)->x+y).collectAsMap());
    }

}

lucasmaluping

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
reduce和reduceByKey的区别

reduce和reduceByKey的区别1、reduce：把RDD中的每一个元素拿出来处理并形成一个新的RDD元素2、reduceByKey，把RDD中的key相同的一组数据拿出来处理，形成一个RDD里面放的是元组reduce和reduceByKey是spark中使用地非常频繁的，在字数统计中，可以看到reduceByKey的经典使用。那么reduce和reduceBykey的区别在哪呢？...
复制链接

扫一扫

专栏目录