-
将mapreduce程序打成jar包,步骤如下图所示:
-
将jar包拖入linux虚拟机
-
在虚拟机上启动集群
-
在hdfs文件系统上创建输入文件的目录
-
上传输入文件到目录中,上传后查看文件是否在该目录下存在
-
运行jar包
(1)注意在运行这条命令前,output 这个目录有可能是不应该存在的(根据自己代码的情况来确定应不应该存在),否则Hadoop会报错并拒绝运行作业。运行完后会自动生成output文件夹,并且output文件夹中有运行后的结果。
(2)output目录可以存在的情况是你的程序对此目录是否存在做了判断。
下图是mapreduce程序中main函数设置job的输入原文件所在的目录,如果你用了图中被注释掉的两行设置目录,则需要每次在集群上执行jar前将output目录删除;但输如果是非注释部分设置目录,则不需删除该目录。
7. 查看运行结果