通过eclipse快速快速开发在伪分布式上调试:
1、启动hadoop集群(确保主机hostname的配置前后一致)
2、eclipse中开发的程序通过args保持通过手动输入参数的性质(通过scanner接收输入的数据源目录和输出目录)
3、通过ant快速打包并放到自己方便使用的目录
4、hadoop jar program.jar package.MainClass (可以使用eclipse相同的方式手动输入数据源目录和输出目录,如果确定调试后没问题可以将scanner部分去掉这里只是为了方便调试用)
5、可以通过在作业执行的输出目录中查看job的配置信息(job_**_**_conf.xml)