WordCount程序
a b c c
b e a
c e a
a 3
b 2
c 3
e 2
步骤
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;
import java.io.IOException;
//map阶段
/**
* map类要继承Mapper
* <KEYIN, VALUEIN, KEYOUT, VALUEOUT>
* 先是读取一行,即数据的缩进是keyin,数据是valuein
* KEYIN : 表示Map阶段数据输入的时候的数据类型,在默认的数据读取组件,叫InputFormat,他是一行一行的读取待处理的数据
* 读取一行返回一行给mr程序,这种情况下,keyin就表示每一行的起始偏移量(首行缩进) 他的数据类型是Long
* <p>
* VALUEIN: 表示Map阶段数据输入的时候value的数据类型,在默认的读取组件下,valuein就表示读取的这一行内容 因此数据类型是String
* <p>
* KEYOUT: 表示Map阶段数据输出的key的数据类型 在本案例1中 输出的key是单词 因此数据类型是String
* <p>
* VALUEOUT: 表示Map阶段数据输出的类型 在本案例中 value输出的是数字 因