1 、 开发环境及注意事项
全部Ubuntu11.10虚拟机,一个Master,两个Slave——重启虚拟机时,如果没有设置固定IP,有时需要重新修改机器配置文件:/etc/hosts;hadoop/conf下的 Masters、 Slaves、core-site、mapred-site共5个文件
eclipse版本:eclipse-java-europa-winter-linux-gtk.tar.gz
虚拟机IP地址仍然是变动的;只好所有配置文件都用:主机名了;
静态IP太难搞了,弄了半天没搞定;先凑合着用吧 - -
2、Eclipse 安装hadoop插件(有些是截图别人的)
====================================================================================
=====================================================================================================
=====================================================================================================
=====================================================================================================
3 编写MP程序(套用模板:头文件,Map处理逻辑,Red处理逻辑,run,main)
稍加注意的小问题有:
map中分割字符串时,需要将String[] lineSplit = line.split(" ");括号中的“”间空一格;
String[] lineSplit = line.split(" ")只适用于用 空格分开的文件,而对于制表符(tab或者enter)则不好使;
如需获得特定格式的输出,可以将输出Key置为Null,同时将value通过字符串拼接到一起,这样的<key, value>对即可满足输出;
4 eclipse下运行MP程序
在编写完的.java程序上,点击右键run as,添加输入输出参数如下: 注意,路径需要用Master主机名,用IP地址会失败,原因未知
配置完毕,apply---run;可以看到控制台输出的程序运行过程;
5 Eclipse导出.jar程序包,并在命令行使用
新建类时需要点选包名;
.java程序上右键---export ---选择JAR文件----勾选所需文件(右侧全选),配置输出路径
==========================================================================================
一路next,最后选择main-class(java程序的主类名,但需要包含包名)
============================================================================================
完成后,命令行执行如下:
over