下面是我用eclipse连接hadoop的总结,经本人验证完全可以使用,该方法在windows下和linux下都一样。
1. 安装插件
首先将hadoop与eclipse连接的插件放到eclipse安装目录的plugins文件夹中,该插件一般放在hadoop目录/contrib/eclipse-plugin中,例如
hadoop-eclipse-plugin-1.0.4.jar,具体版本视你的hadoop版本而定。然后启动eclipse,若打开eclipse后看到有如下视图,则说明你的hadoop插件已经安装成功了:
若Project Explorer中没有出现 DFS Locations,说明插件没有安装成功。这可以通过更换eclipse的版本解决,一次不行的话,多换几个版本就可以。
2.配置hadoop的安装路径
点击window —> 首选项(Preferences),看到如下画面,然后点击Browse加载hadoop安装目录的路径。
若在windows下你只需要把下载到的hadoop-0.20.2.tar.gz包解压到某个位置,然后指向这个位置即可。
3.配置集群连接(Map/Reduce Locations)
如果没有显示这一栏,则点击window——show others,选择Map/Reduce Locations,则会出现。如下图所示:
对Map/Reduce Locations下面的空白处点击右键,出现new hadoop location,建立一个新的,如下图所示:
Location name 可以随便填,这只是个名字。
左边的 host 为集群中 Master 的地址,可以直接填IP地址,port 为 mapreduce端口号,我设置的为9001。
右边的 host 为集群中 namenode 的地址,一般与master地址一样为同一台机器,port 为 hdfs 的端口,我设置为 9000。
其他不用管。
然后点击 Advanced Parameters 设置高级属性,要更改一下hadoop的临时文件夹属性(hadoop.tmp.dir),改为实际情况中的路径。如下图所示:
Hadoop.tmp.dir /home/grid/hadoop/tmp 这里是我的临时目录
4.配置完成
如果网络通畅,就可以看见HDFS中的目录了。