Mapper
/***
* hadoop 分布式运算的编程框架
* wordCount使用
*
* KEYIN : 默认情况下,是mr框架所读到的一行文本内容的起始偏移量,Long
* 但是在hadoop中有自己的更精简的序列化接口,所以不直接用Long,而用LongWritable
* VALUEIN : 默认情况下,是mr框架所读到的一行文本的内容,String.同上用Text
*
* KEYOUT : 用户自定义逻辑处理完成之后输出数据中的key,在此处是单词,String.同上用Text
* VALUEOUT : 用户自定义逻辑处理完成之后输出数据中的value,再次是单词次数:Integer. 同上用IntWritable
*/
public class WordcountMapper extends Mapper<LongWritable,Text,Text,IntWritable>{
/***
* map阶段的业务逻辑就写在自定义的map方法中
* maptask会对每一行输入数据调用一次我们自定义的map()方法
*