伪分布式运行Mapreduce程序

伪分布式执行wordcount.java:

第一步:先把wordcount.java文件复制到ubuntu里面

第二步:我们将 Hadoop classhpath 信息添加到 CLASSPATH 变量中,在 ~/.bashrc 中增加如下几行:

然后执行source ~/.bashrc 使变量生效

 

第三步:使用javac命令编译.java文件

就会生成相应的.class文件

第四步:接着把 .class 文件打包成 jar,才能在 Hadoop 中运行

就会生成jar包

第五步:创建几个输入文件

第六步:启动所有进程

第七步:把本地文件上传到伪分布式HDFS上

/usr/local/hadoop/bin/hadoop fs -put ./input002 input002

第八步:HDFS上查看文件input002

第九步:

运行hadoop jar WordCount.jar org/apache/hadoop/examples/WordCount input002 output002

看到输出信息

 

等待完成就行

成功的标志

第十步:再次查看HDFS里面的文件,多了output002

第十一步:查看output002的内容

第十二步:输出part-r-00000的内容

 

运行过程的一些总结

在刚开始弄伪分布式的时候只要到将文件上传到HDFS那一步就会报错了一直上传不上去,后来发现是自己没有安装yarn后来再次安装yarn,执行计算单词的时候都是要启动所有进程的,很多时候就是忘记启动而导致出错。

一直以为wordcount.jar的位置有规定,其实不是的,只要我操作的那些直接在那个jar包所在的文件夹下操作就行了。刚开始实验的时候是使用以前老师给的32位的debain系统操作一直不能成功,后来只能安装回64位的ubuntu,在这个过程中安装jdk也遇到了错误,后来都是通过百度解决了安装的问题。换了一个系统就能正常操作了。

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值