Hadoop的单机伪分布式搭建和运行第一个WordCount程序
· 环境:
macOs下 Eclipse(Neon)+Hadoop-2.5.2(64位)
注:已经安装的java环境,我的事jdk1.8的
l 下载hadoop,安装它。我下载的完整的包。参考网站:
http://www.apache.org/dist/hadoop/core/hadoop-3.0.0-alpha1/选择你想要下载的版本,建议下载最大的那个,里面包含的东西比较的多,下载完解压出来。我没有下载最高的版本,担心不稳定或者相关文档少。(注:解压完了是没有hadoop_ts文件的,这个是我之后设置生成的)
l 修改相关的配置:
这个配置是十分的头疼的,没设置好的话就是跑不起来活着跑起来出错误,所以要一个个的配置。初学者也不会太复杂的配置,就跟着网上的一些教程,慢慢的来。这个中间走了很多的弯路,左参考一个文件右参考一个导致非常的头疼。
所有的配置文件都在etc的目录下
修改配置文件
mapred.site.xml
hadoop-env.sh
core-site.xml
hdfs-site.xml
log4j.properties
yarn-site.xml
这个配置文件基本上完成。
l 接下里就是ssh测试了:sshlocalhost,如果不成功,自行百度,很快解决的
l 接下来,重头戏了:
我们开始首次启动我们的hodoop,首先,我们要对我们的namenode进行格式化
我们进入到我们hadoop的目录下面
看到下图基本上是成功了
继续操作一波:
start-all.sh
多次输入你的密码加上稍稍的等待
打开以下两个网址基本上就开启了你的hadoop!预示着你的江山打下了一大半了,剩下的就是在eclipse上装上插件和运行程序了!继续!
l 在eclipse上安装hadoop的插件:
这里我推荐一个网站http://www.cnblogs.com/vincentzh/p/6055850.html
可以按照这个教程去安装插件,其实就是把你下载的hadoop下面的一个jar包放到eclipse中的插件里面,如果开着eclipse记得去重启。这里别着急,可能第一次开启还是没有,多试试,我被这个坑了好一段时间。
接下来你所要做的是打开你的eclipse然后到你的perferenes里面进行配置:
插件安装好了的话,没出问题的话你会看到hadoop mapreduce,并且把你下载hadoop的路径加进来
接下里你可以看到dfs location的
接下来:
然后在你的工程视图下面添加配置
接着你的工程左侧就有大象了
并且有一个空的文件夹:注意!这里我只在(1)下面建立了一个user文件夹,再在这个基础上建立了一个ts的文件夹,再建立了一个input的文件夹,其他的我没有去建立。最后把你要上传的文件上传到你的input的文件夹中,output文件夹不要去设置,程序跑起来会自动生成的。
然后import代码里面的包里面的org.apache.hadoop.example的wordcount的代码,接着就。。。还要配置一个文件,把你的run configurations的arguments进行配置:
接下来,你就。。。真的可以run这个程序了,你就会看到控制台没报错,输出了一堆的东西,可以去看看:
最后,可以卡到工程的左侧,把大象右键刷新一下你可以看到多出了一个output的文件,里面有两个文件,其中点开part-r-00000的文件你就可以看到你想看的。至于是什么,自己试着搭建一个看看吧!
另外你可以去termial里面输入 hadoop fs –ls 查看你上传的文件