一.创建伪分布hadoop环境
二.准备实例所需数据文件
NCDC下载地址如下:https://pan.baidu.com/share/link?shareid=2365826105&uk=3726947161
三.编写文件
1.在eclipse中进行编写,其中重要的一点是将程序需要的jar包一次性导入到eclipse中,过程如下:
(1)新建java project,命名为hadoopdemo。
(2)新建class,命名为hadoopdemo。
(3)在project中新建一个文件夹用来存放需要的包,命名为lib。
如图:
(4)在hadoop中寻找出所有的jar包,去除所有的source和test的jar包,将剩余的jar包复制到lib文件中。
如图:
(5)进入lib文件夹中,右键选择bulid path将jar包一次性全部导入。
如图:
2.编写代码
(1)hadoop MapReduce编写Mapper类
详细代码及注释如下:
package hadoopdemo;
import java.io.IOException;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;
public