伪分布式执行wordcount.java:
第一步:先把wordcount.java文件复制到ubuntu里面
第二步:我们将 Hadoop 的 classhpath 信息添加到 CLASSPATH 变量中,在 ~/.bashrc 中增加如下几行:
然后执行source ~/.bashrc 使变量生效
第三步:使用javac命令编译.java文件
就会生成相应的.class文件
第四步:接着把 .class 文件打包成 jar,才能在 Hadoop 中运行
就会生成jar包
第五步:创建几个输入文件
第六步:启动所有进程
第七步:把本地文件上传到伪分布式HDFS上
/usr/local/hadoop/bin/hadoop fs -put ./input002 input002
第八步:HDFS上查看文件input002
第九步:
运行hadoop jar WordCount.jar org/apache/hadoop/examples/WordCount input002 output002
看到输出信息
等待完成就行
成功的标志
第十步:再次查看HDFS里面的文件,多了output002
第十一步:查看output002的内容
第十二步:输出part-r-00000的内容
运行过程的一些总结
在刚开始弄伪分布式的时候只要到将文件上传到HDFS那一步就会报错了一直上传不上去,后来发现是自己没有安装yarn后来再次安装yarn,执行计算单词的时候都是要启动所有进程的,很多时候就是忘记启动而导致出错。
一直以为wordcount.jar的位置有规定,其实不是的,只要我操作的那些直接在那个jar包所在的文件夹下操作就行了。刚开始实验的时候是使用以前老师给的32位的debain系统操作一直不能成功,后来只能安装回64位的ubuntu,在这个过程中安装jdk也遇到了错误,后来都是通过百度解决了安装的问题。换了一个系统就能正常操作了。