注意:
1.有关core-site.xml、hdfs-site.xml、yarn-site.xml、mapred-site.xml的配置,参考:hadoop2.x的配置
2.有关hadoop的命令,参考:hadoop2.x的命令
3.先修改一台机器的配置文件,剩余机器的配置都从这台机器上拷贝。
cdh所有的相关软件下载:http://archive.cloudera.com/cdh5/
cdh有自己的操作系统版本支持列表,可到官网查询。找到对应的cdh Documentation,找到Requirements and Supported Versions,不要安装操作系统不支持的cdh版本,否则报错。
找到Supported Operating Systems项查看。
安装步骤:
1.安装hadoop前,需做如下事情:新建用户,修改host文件,关闭防火墙,安装jdk,配置好master对各slave的免密码访问。
2.修改hadoop-2.0.0-cdh4.7.0/etc/hadoop/hadoop-env.sh的JAVA_HOME和 HADOOP_PID_DIR
export JAVA_HOME=/apps/jdk
export HADOOP_PID_DIR=/home/bigdata/data/hadoopdata/pids
虽然~/.bashrc中配置了JAVA_HOME,但是这里也要配置,因为很多情况下JAVA_HOME会获取不到。
HADOOP_PID_DIR默认是/tmp。hadoop停止的是通过pid来停止的,如果配置在/tmp的话,/tmp会定时清空,如果清空了的话,当你要stop-all.sh时,就会提示:no datanode to stop,所以需要配置。yarn也需要配置,如下:
修改hadoop-2.0.0-cdh4.7.0/etc/hadoop/yarn-env.sh
export YARN_PID_DIR=/home/bigdata/data/hadoopdata/pids
3.修改环境变量~/.bashrc,每台机器都要修改,修改后执行source ~/.bashrc。
export HADOOP_HOME=/home/cdh/apps/hadoop-2.0.0-cdh4.7.0 #hive会用到
export HADOOP_MAPRED_HOME=${HADOOP_HOME} #sqoop会用到
export HADOOP_COMMON_HOME=${HADOOP_HOME} #sqoop会用到
export HADOOP_HDFS_HOME=${HADOOP_HOME}
export YARN_HOME=${HADOOP_HOME}
export HADOOP_YARN_HOME=${HADOOP_HOME}
export HADOOP_CONF_DIR=${HADOOP_HOME}/etc/hadoop #spark on yarn会用到
export HDFS_CONF_DIR=${HADOOP_HOME}/etc/hadoop
export YARN_CONF_DIR=${HADOOP_HOME}/etc/hadoop #spark on yarn会用到
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin
4.修改core-site.xml、hdfs-site.xml、yarn-site.xml、mapred-site.xml文件,参考:hadoop2.x的配置
6.映射NameNode、DataNode节点主机
vi hadoop-2.0.0-cdh4.7.0/etc/hadoop-mapreduce1-secure/masters
master
slave1
vi hadoop-2.0.0-cdh4.7.0/etc/hadoop/slaves
slave1
slave2
7.检查lib/native包,参考:Unable to load native-hadoop library for your pla
8.集群各节点时间校准,在每个节点同时执行命令:date -s "2015-5-8 19:48:00"。
9.将配置拷贝到其他机器。
10.启动集群,参考:hadoop2.x的命令
11.测试安装是否成功,参考:测试hadoop集群是否安装成功:网页监控页面和提交job
参考:Cloudera CDH4.7 Hadoop 分布式安装指南及注意事项