环境:Ubuntu安装在虚拟机,hadoop安装在Ubuntu,eclipse安装在win7下,这样eclipse就不会太卡。
1、复制对应版本hadoop的eclipse插件jar包,比如我的hadoop是0.21.0版本,就使用hadoop-0.21.0-eclipse-plugin.jar,jar包放在eclipse安装目录/plugins/ 下,重启eclipse
2、添加map/reduce
3、添加hadoop路径,这个不用添加Ubuntu里面的,直接添加win7下面解压的文件就可以,这个路径只是为了加载jar包
4、配置Map/Reduce Locations
locationname随便填,Map/Reduce Master和DFS Master这里面的Host、Port分别为你在mapred-site.xml、core-site.xml中配置的地址及端口。如
在adwanced parameters下面找到hadoop.tmp.dir,填写core-site.xml中对应的地址
点击完成就可以看到左上角出现的文件夹(如果打开文件夹报错,一般是hadoop插件和hadoop版本不匹配,或者是和eclipse版本不匹配,更换eclipse版本就行)
5、新建map/reduce项目
File-->New-->Other-->Map/Reduce Project
项目名可以随便取,如hadoop-test。
复制 hadoop安装目录/src/example/org/apache/hadoop/example/WordCount.java到刚才新建的项目下面。
6、上传模拟数据文件夹。
为了运行程序,我们需要一个输入的文件夹,和输出的文件夹。输出文件夹不需要创建,在程序运行完成后会自动生成。我们需要给程序一个输入文件夹。
在当前目录(如hadoop安装目录)下新建文件夹input,并在文件夹下新建两个文件f_1、f_2,内容随意添加。
7、运行项目。
在Arguments下添加
hdfs://192.168.136.144:9000/user/zhouyao/input hdfs://192.168.136.144:9000/user/zhouyao/output1
这两个参数表示namenode地址,输入文件地址,输出文件地址
点击run ,可以看到如下信息
在文件夹下,打开output可以看到运行结果