概述
对于任何一个大数据处理程序,感觉没有一个单词计数的demo总感觉过意不去。
spark作为一个分布式的集群计算框架,其核心为RDD(resilient distribution dataset),即弹性分布式数据集。 整个spark的编程也都是围绕着RDD进行的,大部分情况下的步骤都是:创建RDD -->转换RDD–>操作RDD(action),下面这个单词计数的demo也是按照这个顺序来的。(注:具体代码在干什么已经在代码的注释中写的很详细了,这里就不再赘述了)
代码
直接上代码:
package org.apache.spark.spark_learning;
import java.util.Arrays;
import java.util.Iterator;
import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.FlatMapFunction;
import org