1:下载eclipse-jee-juno-SR1-linux-gtk.tar.gz,放到虚拟机的共享目录中;
2:在虚拟机中mnt -->hgfs下找到共享文件;
3:打开终端,解压eclipse-jee-juno-SR1-linux-gtk.tar.gz 到 opt下;
$ sudo tar xvfz eclipse-jee-juno-SR1-linux-gtk.tar.gz -C /opt
4:在opt下找到eclipse文件夹,启动下面的eclipse,新建工程,并编写测试类,进行测试。
5:安装hadoop插件,下载hadoop-eclipse-plugin-1.0.1.jar插件(注:hadoop-eclipse-plugin-1.0.0.jar在连接hdfs的时候有问题,hadoop-eclipse-plugin-1.0.1.jar没有问题),并拷贝至/opt/eclipse/plugins目录下:
cp /mnt/hgfs/ubuntushare/hadoop-eclipse-plugin-1.0.1.jar /opt/eclipse/plugins/
6:重新启动eclipse,选择Windows-->open perspective-->other,在弹出的框中选中"Map/Reduce";
7:选择Map/Reduce location标签页,点击右键选择new hadoop location新建hadoop location,Location name 、Port、User name 可根据实际环境设置,点击完成。
8:如果没有启动adoop HDFS服务,将此服务启动,在hadoop目录下执行如下命令:
bin/start-all.sh
并可用jps命令查看是否启动成功。
9:连接HDFS成功如下图:
10:上传测试数据:
新建测试数据文件夹:
bin/hadoop dfs -mkdir in
将conf文件夹下的xml文件上传到in中:
bin/hadoop dfs -put conf/*.xml in
查看in中的上传文件:
bin/hadoop dfs -ls in
11:验证数据是否上传成功,重新连接DFS Locations ,看到如下上传的文件则说明数据成功上传到HDFS,双击左边的文件,可看到其中的内容信息,至此测试数据信息准备完成。
12:新建MR工程:选择新建map/reduce工程:
点击Configure Hadoop install directory ,设置Hadoop安装目录:
点击完成,完成工程创建。
13:编写测试程序;
复制 hadoop安装目录/src/example/org/apache/hadoop/example/WordCount.java到刚才新建的项目的包下:
14:运行程序;
右键点击WorldCount.java选择Run As -->Run Configurations,设置测试数据的目录和生成结果存放目录:
点击run按钮执行程序,查看控制台程序执行信息:
15:查看数据统计结果;
重新连接DFS Locations,可看到文件列表多出一个out的文件夹,双击统计结果文件part-r-0000可看到数据的统计结果:
测试程序成功执行。
16:停止HDFS服务;
bin/stop-all.sh