spark程序解析——WordCount

本文详细解析了Spark的词频统计源代码,包括从构建JavaRDD到使用flatMap、mapToPair、reduceByKey进行数据处理,最后通过saveAsTextFile保存结果。重点关注flatMap在处理RDD时的作用,以及reduceByKey如何合并key-value对。
摘要由CSDN通过智能技术生成

本篇解析spark的词频统计源程序代码。


java源码如下:

</pre><pre name="code" class="java">package sparkTest;

import java.util.Arrays;

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.FlatMapFunction;
import org.apache.spark.api.java.function.Function2;
import org.apache.spark.api.java.function.PairFunction;

import scala.Tuple2;

public class WordCount {
	
	public static void main(String[] args) {
		String logFile = "file:///home/hadoop/workspace/sparkTest/input/README.md"; // Should be some file on your system
		SparkConf conf = new SparkConf().setAppName("Simple Application").setMaster("local");
		JavaSparkContext sc = new JavaSparkContext(conf);
		JavaRDD<String> textFile = sc.textFile(logFile);	//构建String型RDD
		
		JavaRDD<String> words = textFile.flatMap(new FlatMapFunction<String, String>() {		//flatMap相对map,多了flattening环节:即将所有行返回的结果合并很一个对象
			public Iterable<String> call(String s) {
				return Arrays.asList(s.split(" "));
			}
		});
		
		JavaPairRDD<String, Integer> pairs = words.mapToPair(new PairFunction<String, String, Integer>() {	//执行PairFunction,返回keyValue值对
			public Tuple2<String, Integer> call(String s) {
				return new Tuple2<String, Integer>(s, 1);
			}
		});
		
		JavaPairRDD<String, Integer> counts = pairs.reduceByKey(new Function2<Integer, Integer, Integer>() {	//合并相同的Key
			public Integer call(Integer a, Integer b) {
				return a + b;
			}
		});
		
		counts.saveAsTextFile("file:///home/hadoop/workspace/sparkTest/output");
//		System.out.println("Lines with a: " + numAs + ", lines with b: " + numBs);
	}
}

源码解析步骤:

1、textFile()之前,构建JavaRDD,String型的。

2、flatMap()对RDD元素进行操作并合并。不同于map(),flatMap的函数参数返回的必须是list等序列。官方文档解释如下:

flatMap(func) Similar to map, but each input item can be mapped to 0 or more output items (so func should return a Seq rather than a single item).

3、words.mapToPair(new PairFunction<String, String, Integer>())将flatMap结果转化成keyValue对。

4、pairs.reduceByKey(new Function2<Integer, Integer, Integer>())将mapToPair结果合并成最终结果。

5、saveAsTextFile(path)把最终结果存入path对应的文件中,可以是local file system、hadoop支持的其它文件系统、HDFS等。


注意:这里除了saveAsTextFile()是action操作,其他都属于Transformation.


输入文件内容如下:

# Apache Spark


Spark is a fast and general cluster computing system for Big Data. It provides


<http://spark.apache.org/>


输出文件内容如下:

(Spark,2)
(provides,1)
(is,1)
(general,1)
(a,1)
(Big,1)
(fast,1)
(Apache,1)
(#,1)
(,2)
(cluster,1)
(Data.,1)
(It,1)
(for,1)
(computing,1)
(and,1)
(<http://spark.apache.org/>,1)
(system,1)

观察可知,实现了词频统计功能。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值