http://www.powerxing.com/install-hadoop-in-centos/
这篇博文详细讲解了Hadoop伪分布式环境搭建,非常棒。
此外,我这里记录一些其他相关内容,备忘。
使用hadoop-eclipse-plugin-2.6.0.jar来构建MapReduce框架的Eclipse开发环境,这里先给出这个插件的链接,由于本人没有什么有价值的资源,所以没有积分下载,在网上找了好久,终于找到了一个好心人,这个插件编译起来感觉挺乱。这里我也分享给别人,链接:https://pan.baidu.com/s/1OMoK5NQX19UB5RJGTo06Xg 密码:jv0a
还有就是,当我从物理机上的Eclipse连接虚拟机下的机器时,当第一次连接上的时候,如果之前没有进行过测试,文件夹会显示是零个,也就是说明在hdfs文件系统下的文件是空的,还没有创建而已。不要以为错了。此外端口号的问题是,如果之前写的xml文件中并没有提到端口号,Map/Reduce master中的端口号默认即可,DFS的端口号则可以通过在虚拟机中查看http://localhost:50070,进入Hadoop管理页面的overview页面下面就可以看到处于活跃状态的主机和端口号。还可以在Utilities页面的Browse the file system查看hdfs的文件系统,此后也可以从这里获得运行结果并下载下来。
这里在说一些hdfs的常用命令:(这里操作的所有目录都是hdfs文件系统下的,在linux文件系统中是找不到的)
在hadoop的目录下
创建输入目录
bin/hdfs dfs -mkdir /input
将输入文件放入输入目录
bin/hdfs dfs -put README.txt /input
执行Jar包(省略了jar包的main入口,这个要在打包时声明main入口,导出时别直接finish,点Next设置一下就行了)
hadoop jar wordcount.jar /input /output
删除output文件夹(hadoop不会自动覆盖已有的output文件夹,所以执行之前要确认是否存在output文件夹)
bin/hdfs dfs -rmr /output
因为毕设选题选到了相关技术,纯小白现学现卖,还没有系统学习,有很多白痴的地方,大神路过勿喷。