今天,我们来一起学习一下hadoop-2.5.0-cdh5.3.6版本的hadoop集群搭建。
一 下载
首先我们需要下载对应的tar.gz,下载地址:http://archive.cloudera.com/cdh5/cdh/5/
二 上传
使用WinSCP将刚刚下载的tar.gz上传到sparkproject1的/usr/local下。
三 解压
使用tar -zxvf hadoop-2.5.0-cdh5.3.6.tar.gz命令解压,并使用mv命令将其重命名,然后删除tar.gz包。
四 配置环境变量
# vi编辑/etc/profile
[root@sparkproject1 local]# vi /etc/profile
# 在/etc/profile末尾添加HADOOP_HOME环境变量
export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
# 使用source命令生效profile文件
source /etc/profile
五 检查hadoop是否正确安装
六 创建data目录
我们在/usr/local下创建data目录
七 修改core-site.xml
八 修改hdfs-site.xml
九 修改mapred-site.xml
十 修改yarn-site.xml
十一 修改slaves文件
至此我们完成了一台机器的hadoop安装和配置,接下来我们在sparkproject2和sparkproject3中安装和配置hadoop。
十二 在另外两台机器上搭建hadoop
1、我们使用scp命令将sparkproject1上面的hadoop安装包和/etc/profile配置文件都拷贝过去。
# 注意,在hadoop安装目录执行该语句
scp -r hadoop root@sparkproject2:/usr/local
scp -r hadoop root@sparkproject3:/usr/local
scp -r /etc/profile root@sparkproject2:/etc
scp -r /etc/profile root@sparkproject3:/etc
2、要记得对/etc/profile文件进行source,以让它生效。
# sparkproject2
source /etc/profile
# sparkproject3
source /etc/profile
3、记得在sparkproject2和sparkproject3的/usr/local目录下创建data目录。
# sparkproject2
mkdir /usr/local/data
# sparkproject3
mkdir /usr/local/data
十三 启动hdfs集群
1、格式化namenode:在sparkproject1上执行以下命令,hdfs namenode -format
2、启动hdfs集群:start-dfs.sh
3、验证启动是否成功:
# jps命令验证是否启动成功
sparkproject1:namenode、secondarynamenode
sparkproject2:datanode
sparkproject3:datanode
当然我们也可以用浏览器访问sparkproject1:50070来查看hdfs启动情况。
4、向hdfs上传文件。(hdfs dfs -put hello.txt /hello.txt)
十四 启动yarn集群
1、启动yarn集群:start-yarn.sh
2、验证启动是否成功:
3、当然我们也可以用浏览器访问sparkproject1:8088来查看yarn启动情况。
十五 问题解决
1、若start-dfs.sh过程中,报如下错误,可以先使用java -version和hadoop version确认是否安装成功。然后我们可以手动修改hadoop-env.sh中的JAVA_HOME。