昨天晚上刚刚配置好了3台主机的集群,想着把集群的配置过程详细的记录下来,以备不时之需,就顺便把cdh-Hadoop伪分布式安装教程也详细记录下来。在没有深入接触大数据之前,我也不知道cdh和Apache的Hadoop有什么区别。但是随着不断的深入,慢慢的了解到cdh的好处,cdh版本的Hadoop会帮我们编译好Hadoop。例如当我们学习到hive,flume,sqoop……时,如果用的是Apache的Hadoop,就需要我们自己对Hadoop进行编译,因为后面提到的那一系列的大数据的框架都是基于Hadoop之上,既然你要使用它,则不可避免的需要对它进行编译。而如果我们使用cdh版本的Hadoop,我们只需要对后面的那些框架的软件的配置文件的参数进行一定的设置就可以使用了,当然,所有软件的cdh的版本要一致,我这里使用的是cdh-5.3.6。cdh版本的下载地址。百度云下载链接:http://pan.baidu.com/s/1bo1g93L 密码:yqaj
下面开始正式的介绍cdh-Hadoop伪分布式安装步骤:
1、解压Hadoop
2、使用notepad++(安装插件NppFTP)配置Hadoop-env.sh文件
先配置${JAVA_HOME}
保存并退出
3、配置yarn-env.sh
修改其中的java_home
4、配置mapred-env.sh文件
修改其中的java_home
5、配置core-site.xml文件
配置其中的configuration
在Hadoop相应的位置创建刚才在Hadoop配置文件配置的路径
6、配置hdfs-site.xml文件
配置其中的configuration
7、配置slaves文件
8、配置yarn-site.xml文件
9、配置mapred-site.xml.template文件
先拷贝一份出来
再配置
10、配置完就格式化
11、重启
12、删除tmp目录所有文件
13、 启动namenode、datanode
看2个进程是否启动成功
14、启动resourcemanager、nodemanager
查看2个进程是否正常启动
15、 启动historyserver
查看该进程是否正常启动
16、伪分布式配置成功
平时我启动时并不是一个一个进程的去启动,而是直接使用sbin/start-all.sh来进行启动Hadoop的相关进程,关闭的时候则使用sbin/stop-all.sh即可。特别注意,我们格式化hdfs只需要配置完成使用一次(bin/hdfs -format namenode),我们正常使用的时候不要使用该命令,要不然你的hdfs上的所有数据会格式化,我刚开始使用Hadoop的时候以为是每次启动Hadoop都需要该操作,结果后来每次都没有数据了,需要重新传。
到这里我的cdh-Hadoop伪分布式安装教程就到此为止了,有需要了解Hadoop集群的配置教程,欢迎到我的博客去找该教程,我写完该教程就去写Hadoop集群的教程了!