Apache Spark编程教程

最新推荐文章于 2024-07-31 06:15:00 发布

脸ル粉嘟嘟

最新推荐文章于 2024-07-31 06:15:00 发布

阅读量359

点赞数

分类专栏： ▼ BigData ——Spark 文章标签： spark hadoop 大数据

▼ BigData 同时被 2 个专栏收录

49 篇文章 2 订阅

订阅专栏

——Spark

17 篇文章 0 订阅

订阅专栏

Apache Spark JavaRDD和任务解决

好吧，我告诉我身边的每个人，如果你不知道map-reduce概念那么你就无法理解Apache Spark。为了证明这一点，让我们解决简单的任务。假设我们在城镇中有以下温度的文本文件：

Prague 35
Madrid 40
Berlin 20
Paris 15
Rome 25

位于Apache Hadoop HDFS文件系统，我们需要编写简单的JavaRDD Apache Spark程序来打印具有温度低于整个平均温度的城镇的行。

JavaRDD API和MapReduce有区别吗？

实际上它不是！要解决前面提到的任务，我们需要将问题分成以下几部分：

首先，我们需要编写JavaRDD程序来计算温度和平均值的总和。
然后我们要打印温度低于计算平均值的行。

MapReduce解决方案概念

如果我们使用Spring Data for Hadoop或为map-reduce程序指定的简单Apache Hadoop API，那么我们的解决方案将是：

Map函数将创建键[K，V] ='reducer'，town.temperature
减少功能将接收先前的键并将整个组的温度相加并计算平均温度。
链式地图减少任务将打印温度低于平均值的城镇的结果。

Apache Spark JavaRDD解决方案

（类似于mapreduce）

首先，我们需要通过将map函数应用于输入RDD集来获取所有行的JavaRDD温度集：

    JavaRDD<String> parsedTemperatures = lines.map(new Function<String, String>() {
        private static final long serialVersionUID = 1L;

        public String call(String v1) throws Exception {
            final String arr[] = SPACE.split(v1);
            System.out.println("Reading temperature ["+arr[1]+"] from "+v1);
            return arr[1];
        }
    });

然后我们需要将此RDD集转换为CONSTANT.row.temperature表单以将数据准备到reducer中：

JavaPairRDD<String, Integer> forGroup = parsedTemperatures.mapToPair(
            new PairFunction<String, 
            String, Integer>() {
        private static final long serialVersionUID = 1L;

        public Tuple2<String, Integer> call(String t) throws Exception {
            return new Tuple2<String, Integer>("reducer", Integer.parseInt(t));
        }
    });

有了这个数据集，我们就为减速器准备了数据，它将聚合所有温度

JavaPairRDD<String, Integer> counts = forGroup.reduceByKey(
            new Function2<Integer, Integer, Integer>() {
        private static final long serialVersionUID = 1L;

        public Integer call(Integer v1, Integer v2) throws Exception {
              System.out.println("Agregatting "+v1+" plus "+v2);
              return v1 + v2;
        }
    });

（再次，像map-reduce概念）

要了解Spark减速器的工作原理，请查看日志：

Reading temperature [35] from Prague 35
Reading temperature [40] from Madrid 40
Agregatting 35 plus 40
Reading temperature [20] from Berlin 20
Agregatting 75 plus 20
Reading temperature [15] from Paris 15
Agregatting 95 plus 15
Reading temperature [25] from Rome 25
Agregatting 110 plus 25

Spark实际上并行运行前三个函数map，mapToPair和reduceByKey！DAG图形分析器组合Spark任务的好处之一！

解决方案的第二部分是打印温度低于平均温度的所有城镇：

    Tuple2<String, Integer> sumTemperatures = counts.first();    
    final Integer sum = sumTemperatures._2;
    final long count = parsedTemperatures.count();
    final double avg = (double) sum / count;
    System.out.println("Average temperature "+avg);

    JavaRDD<String> result = lines.filter(new Function<String, Boolean>() {
        private static final long serialVersionUID = 1L;

        public Boolean call(String v1) throws Exception {
            final String arr[] = SPACE.split(v1);
            long temperature = Long.parseLong(arr[1]);
            return temperature <= avg;
        }
    });

    List<String> resultList = result.collect();
    for (String item: resultList) {
        System.out.println("Result item: "+item);
    }

让我们解释一下这段代码：

通过counts.first（）我们从reducer中读取所有温度的总和
我们使用count函数来获取JavaRDD输入集中所有行的计数。
我们使用JavaRDD过滤功能来过滤掉温度高于平均值的城镇。
我们使用JavaRDD collect函数来打印结果。

如果你运行这个程序，你应该得到如下结果：

16/03/03 21:02:26 INFO DAGScheduler: Job 1 finished: count at AvgTemperatureAnalyzer.java:85, took 0,094561 s

Average temperature 27.0
.
.
Result item: Berlin 20
Result item: Paris 15
Result item: Rome 25

16/03/03 21:02:26 INFO ContextHandler: stopped o.s.j.s.ServletContextHandler{/metrics/json,null}

结论

从我的观点来看，Apache Spark更加友好的地图减少编程，即使概念是相同的。我打赌你明白我们需要通过JavaRDD输入进行多次迭代，但是使用map-reduce你需要弄清楚如何将前一个map reduce任务的结果传递给下一个，Apache Spark一个输入迭代以新的RDD设置，您可以在其中应用其他功能，从主节点驱动的所有内容......这不是很酷吗？