Linux下安装Eclipse和插件hadoop-eclipse-plugin-0.20.203.0.jar以及配置hadoop环境
上述准备工作做好后,下面开始编写MapReduce程序并执行以及导出jar包。
详细步骤如下:
第一步:编写MapReduce程序并执行
1、打开Eclipse,选择菜单栏的File->New->Project选项,出现如下图的对话框,选择"Map/Reduce
Project",如下图所示:
2、新建MapReduce工程:如上图,点击"Next",进入"Map/Reduce
Project",给工程命名为:WordCount,然后点击"Finish"。如下图所示:
新建的工程如下图所示:
3、新建class文件,选中上图工程名下的src,右击选择New->class,命名为WordCount,点击"Finish"。
4、编写MapReduce程序:一个Map函数,一个Reduce函数,一个主函数
5、创建输入文件夹input:在DFS
Locations目录下的user/hadoop/下创建input文件夹,右击选择"Create new
directory",创建好后,右击选择"Refresh"刷新,就能看到input文件夹
6、导入输入文件file1.txt,file2.txt:右击选择"Upload files to
DFS",添加file1.txt和file2.txt,点击"OK"。
7、运行MapReduce程序前的配置:选择菜单Run->Open Run Dialog
8、配置文件:新建配置文件,选择"Arguments",在Program arguments栏里指定输入输出路径,VM
arguments栏里虚拟机最大运行内存-Xms 128m -Xmx
512m,防止运行时报内存溢出错错误:java.lang.OutOfMemoryError:Java heap
space.
9、运行MapReduce程序:点击上图的"Run"运行,控制台出现如下运行界面
10、查看输出结果:输出结果在(8、)指定输出的路径output下的part-r-00000,双击打开它,结果如下图:
第二步:导出JAR包
1、选中工程名WordCount,右击选择"Export"
2、选择Java文件夹下的"JAR file",点击"Next"
3、导出jar文件的路径:自定义导出路径,并命名jar包为:WordCount.jar
4、选择"Next"
5、添加calss文件
6、class文件添加好后,点击"OK"
7、进入导出jar文件夹下可以查看导出的WordCount.jar
然后就可以像执行hadoop自带WordCount例子那样执行操作了,