单词计数是最简单也是最能体现MapReduce思想的程序之一,可以称为MapReduce版“Hello World”,该程序的完整代码可以在Hadoop安装包的src/example目录下找到。单词计数主要完成的功能:统计一系列文本文件中每个单词出现的次数,如下图所示。本blog将通过分析WordCount源码来帮助大家摸清MapReduce程序的基本结构和运行机制。
开发环境
硬件环境:Centos 6.5 服务器4台(一台为Master节点,三台为Slave节点)
软件环境:Java 1.7.0_45、hadoop-1.2.1
1、 WordCount的Map过程
Map过程需要继承org.apache.hadoop.mapreduce包中Mapper类,并重写其map方法。Map方法中的value值存储的是文本文件中的一行记录(以回车符为结束标记),而key值为该行的首字符相对于文本文件的首地址的偏移量。然后StringTokenizer类将每一行拆分成一个个的单词,并将
2、 WordCount的Reduce过程
Reduce过程需要继承org.apache.hadoop.mapreduce包中的Reduce类,并重写其reduce方法。Reduce方法的输入参数key为单个单词,而values是由各Mapper上对应单词的计数值所组成的列表,所以只要遍历values并求和,即可得到某个单词出现的总次数。
IntSumReducer类的实现代码如下,详细源码请参考:WordCount\src\WordCount.java。
public static class IntSumReducer
extends Reducer<Text,IntWritable,Text,IntWritable> {
private IntWritable result = new IntWritable();
public void reduce(Text key, Iterable<IntWritable> values, Context context
) throws IOException, InterruptedException {
//输入参数key为单个单词;
//输入参数Iterable<IntWritable> values为各个Mapper上对应单词的计数值所组成的列表。
int sum = 0;
for (IntWritable val : values) {//遍历求和
sum += val.get();
}
result.set(sum);
context.write(key, result);//输出求和后的<key,value>
}
}
3、 WordCount的驱动执行过程
在MapReduce中,由Job对象负责管理和运行一个计算任务,并通过Job的一些方法对任务的参数进行相关的设置。此处设置了使用TokenizerMapper完成Map过程和使用IntSumReducer完成Combine和Reduce过程。还设置了Map过程和Reduce过程的输出类型:key的类型为Text,value的类型为IntWritable。任务的输入和输出路径则由命令行参数指定,并由FileInputFormat和FileOutputFormat分别设定。完成相应任务的参数设定后,即可调用job.waitForCompletion()方法执行任务。
驱动函数实现代码如下,详细源码请参考:WordCount\src\WordCount.java。
public static void