实验目的:
Windows系统下,通过MapReduce实现次词频统计
MapReduce编程实例-----词频统计
1)·首先,MapReduce通过默认组件TextInputFormat将待处理的数据文件(如ext1.txt和text2.txt),
把每一行的数据都转变为<key,value>键值对;
2)·其次,调用Map()方法,将单词进行切割并进行计数,输出键值对作为Reducer阶段的输入键值对
3)·最后,调用Reduce()方法将单词汇总、排序后,通过TextOutputFormat组件输出结果文件中
Map阶段:
1)自定义Mapper,继承自己的父类;
2)Mapper输入数据是kv键值对形式;形如<a,1> <b,2>
3)Mapper阶段的逻辑代码写入map()方法内;
4)Mapper输出的数据也是kv键值对类型;
5)map()方法,每一个kv都要调用一次;
package word.com;
import java.io.IOException;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;
/*
*Mapper<KEYIN, VALUEIN, KEYOUT, VALUEOUT>
*KEYIN:表示mapper阶段数据输入时key的数据类型ÿ