Hadoop集群搭建详细步骤（2.6.0）

最新推荐文章于 2025-09-08 11:49:56 发布

原创最新推荐文章于 2025-09-08 11:49:56 发布 · 2.3w 阅读

101 ·

CC 4.0 BY-SA版权

文章标签：

#hadoop

Hadoop 专栏收录该内容

29 篇文章

订阅专栏

本文详细介绍如何在三台物理机上部署Hadoop2.6.0集群的过程，包括环境准备、SSH配置、文件系统配置、YARN配置等关键步骤，并分享了在搭建过程中遇到的问题及解决方案。

部署运行你感兴趣的模型镜像

本文记录在3台物理机上搭建Hadoop 2.6.0的详细步骤及碰到的问题解决。默认使用root账号操作，实际中建议使用专用的hadoop用户账号。

1. 环境

机器：物理机3台，ip分别为192.168.1.130、192.168.1.132、192.168.1.134
操作系统： CentOS 6.6
Java： 1.7
Hadoop: 2.6.0

请确保JDK已安装，使用java -version确认。

hosts配置

配置主机hosts文件：

vim /etc/hosts
192.168.1.130 master
192.168.1.132 slave1
192.168.1.134 slave2

ssh配置

master上的namenode需要无密码ssh访问两台salve，一次需要配置无密码ssh。步骤如下：
在master上：
使用下面命令生成密钥对：

ssh-keygen -t rsa

-t参数表示类型，这里选择rsa。选择保存位置的时候直接回车，使用默认的/root/.ssh/id_rsa。提示输入密码的时候，直接回车。如下图：

这里写图片描述

上述命令将在/root/.ssh目录下生成公钥文件id_rsa.pub。将此文件拷贝到.ssh目录下的authorized_keys：

cat /root/.ssh/id_rsa.pub >> /root/.ssh/authorized_keys

ssh登录本机，确保能够免密码登录：

这里写图片描述

然后将公钥复制到两台slave：

ssh-copy-id -i ~/.ssh/id_rsa.pub root@192.168.1.132
ssh-copy-id -i ~/.ssh/id_rsa.pub root@192.168.1.134

ssh-copy-id 把公钥分发即追加到远程主机的 .ssh/authorized_key 上,并确保目录及文件有对应的权限。确保可以从master免密码登录到slave1和slave2：

这里写图片描述

配置文件目录

在master常见name，data，ymp分别用于保存HDFS的namenode文件，数据及临时文件：

mkdir /home/data/hdfs
cd /home/data/hdfs
mkdir name
mkdir data
mkdir tmp

然后将hdfs文件拷贝到两台slave对应的位置：

scp -r hdfs/ root@192.168.1.132:/home/data/hdfs
scp -r hdfs/ root@192.168.1.134:/home/data/hdfs

2. 安装及配置

下载hadoop 2.6

cd /home/soft/
mkdir hadoop
cd hadoop
wget http://apache.fayea.com/hadoop/common/hadoop-2.6.0/hadoop-2.6.0.tar.gz

解压到home目录下：

tar zxvf hadoop-2.6.0.tar.gz -C /home/

配置Hadoop集群：

Hadoop的配置文件位于安装目录下的etc/hadoop文件。

配置core-site.xml

vim /home/hadoop-2.6.0/etc/hadoop/core-site.xml

<configuration>
  <property>
    <name>hadoop.tmp.dir</name>
    <value>file:/home/data/hdfs/tmp</value>
    <description>A base for other temporary directories.</description>
  </property>
  <property>
    <name>io.file.buffer.size</name>
    <value>131072</value>
  </property>
  <property>
    <name>fs.default.name</name>
    <value>hdfs://master:9000</value>
  </property>
  <property>
    <name>hadoop.proxyuser.root.hosts</name>
    <value>*</value>
  </property>
  <property>
    <name>hadoop.proxyuser.root.groups</name>
    <value>*</value>
  </property>
</configuration>

配置hdfs-site.xml
基本配置包括副本数量，数据存放目录等。

vim /home/hadoop-2.6.0/etc/hadoop/hdfs-site.xml

<configuration>
  <property>
    <name>dfs.replication</name>
    <value>2</value>
  </property>
  <property>
    <name>dfs.namenode.name.dir</name>
    <value>file:/home/data/hdfs/name</value>
    <final>true</final>
  </property>
  <property>
    <name>dfs.datanode.data.dir</name>
    <value>file:/home/data/hdfs/data</value>
    <final>true</final>
  </property>
  <property>
    <name>dfs.namenode.secondary.http-address</name>
    <value>master:9001</value>
  </property>
  <property>
    <name>dfs.webhdfs.enabled</name>
    <value>true</value>
  </property>
  <property>
    <name>dfs.permissions</name>
    <value>false</value>
  </property>
</configuration>

配置yarn-site.xml

vim /home/hadoop-2.6.0/etc/hadoop/yarn-site.xml

<configuration>

  <!-- Site specific YARN configuration properties -->
  <property>
    <name>yarn.resourcemanager.hostname</name>
    <value>master</value>
  </property>

  <property>
    <name>yarn.resourcemanager.address</name>
    <value>master:18040</value>
  </property>

  <property>
    <name>yarn.resourcemanager.scheduler.address</name>
    <value>master:18030</value>

  <property>
    <name>yarn.resourcemanager.webapp.address</name>
    <value>master:18088</value>
  </property>

  <property>
    <name>yarn.resourcemanager.resource-tracker.address</name>
    <value>master:18025</value>

  <property>
    <name>yarn.resourcemanager.admin.address</name>
    <value>master:18141</value>
  </property>

  <property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>

  <property>
    <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
    <value>org.apache.hadoop.mapred.ShuffleHandler</value>
  </property>
</configuration>

配置mapred-site.xml

vim /home/hadoop-2.6.0/etc/hadoop/mapred-site.xml

<configuration>
  <property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
  </property>
</configuration>

配置salve

vim /home/hadoop-2.6.0/etc/hadoop/slaves

slave1
slave2

将hadoop整个文件copy到两台slave：

cd /home
scp -r  hadoop-2.6.0 root@slave1:/home/
scp -r  hadoop-2.6.0 root@slave2:/home/

配置path

vim /etc/profile
export HADOOP_HOME=/home/hadoop-2.6.0
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
. /etc/profile

这样在master机器上的任意路径都可以运行hadoop命令。

3. 运行Hadoop

Hadoop提供了很丰富的脚本供使用，主要在安装目录中的bin及sbin。

启动namenode

启动之前需要格式化一下：
在master机器上执行下面的命令，格式化HDFS文件系统：

hadoop namenode -format

这里写图片描述

格式化成功，现在启动namenode守护进程：

hadoop-daemon.sh start namenode

查看hadoop进程：

ps -ef | grep hadoop

可以看到已经有hadoop进程启动：

这里写图片描述

使用jps命令查看JVM进程：

jps

可以看到namenode成功启动：
这里写图片描述

如果提示你找不到jps，请确保你安装了JDK而不是jre并将jdk/bin设置到PATH环境变量中。

启动datanode

启动datanode命令如下：

hadoop-daemons.sh start datanode

该命令会远程启动slave上的datanode守护进程。但是启动出现错误：

这里写图片描述

echo $JAVA_HOME看到已经配置了，查明是因为hadoop-env.sh没有配置JAVA_HOME，修改配置如下（集群其他节点需同步修改）：

 vim /home/hadoop-2.6.0/etc/hadoop/hadoop-env.sh

这里写图片描述

重新启动datanode：

这里写图片描述

在slave上运行jps，发现没有datanode，查看日志：

vim /home/hadoop-2.6.0/logs/hadoop-root-datanode-brandon132.out

这里写图片描述

提示mapred-site.xml配置有问题，查看果然如此：

这里写图片描述

修正后重新启动datanode：

这里写图片描述

两台slave运行jps都证明datanode启动成功：
这里写图片描述

这里写图片描述

上述两个步骤（启动namenode和datanode可以合并为一个命令）

start-dfs.sh

该脚本位于Hadoop安装目录中bin目录下，我们已经加入到PATH环境变量中。

启动YARN：

yarn-daemon.sh start resourcemanager

启动nodemanager:

yarm-daemon.sg start nodemanager

上述两步一样可以合并为：

start-yarn.sh

这里写图片描述

在master上运行jps，ResourceManager已启动：

这里写图片描述

在salve上运行jps，发现只有datanode而没有nodemanager：

这里写图片描述

查看log日志：

这里写图片描述

发现shuffle这个aux-serviece配置非法，经查证，新版本中mapreduce.shuffle需改为mapreduce-shuffle,即在mapred-site.xml中配置修改如下(集群其他节点需同步修改）：
原来：

 <property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce.shuffle</value>
  </property>

改为下划线：

<property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
</property>

修改后重启，成功：

这里写图片描述

查看HDFS管理界面：

这里写图片描述

访问YARN管理界面：

这里写图片描述

4. 运行实例

搭建完成之后，我们运行一个Mapreduce作业感受一下：

hadoop jar /home/hadoop-2.6.0/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0.jar pi 5 10

启动之后发现总是卡住：

这里写图片描述

管理界面的状态也一直处于Accepted，没有任何变化：

这里写图片描述

折腾了很久，总算找到原因，是因为hostname配置与/etc/hosts中的配置不一样，/etc/hosts中master的配置如下：

192.168.1.130 master

master机器上使用hostname查，显示为brandon130。先使用hostname命令临时修改一下主机名：

hostname master

其他两台slave对应修改。

然后重新提交pi运算作业，总算成功：

这里写图片描述

从进度日志可以看到map和reduce作业是可以一定程度上并行的：

这里写图片描述

查看YARN管理界面：

这里写图片描述

大功告成。

5. 常见问题及其他

1）防火墙

请确保集群机器的防火墙都关闭，否则可能会出现各种莫名的问题，需要你自己去看日志排查原因。关闭防火墙方法如下：
临时生效，重启后复原：

service iptables start // 开启
service iptables stop  // 关闭

永久性生效，重启后不会复原

chkconfig iptables on // 开启
chkconfig iptables off // 关闭

2）主机名配置

前面提到的主机名修改是临时的，重启机器之后会恢复原来的样子，要永久修改主机名，需要对应修改/etc/sysconfig/network文件,如下图，将HOSTNAME改成对应的master，其他两台对应slave1，slave2。

这里写图片描述

（完）

您可能感兴趣的与本文相关的镜像

Stable-Diffusion-3.5

图片生成

Stable-Diffusion

Stable Diffusion 3.5 (SD 3.5) 是由 Stability AI 推出的新一代文本到图像生成模型，相比 3.0 版本，它提升了图像质量、运行速度和硬件效率

Hadoop集群搭建详细步骤（2.6.0）

1. 环境

hosts配置

ssh配置

配置文件目录

2. 安装及配置

下载hadoop 2.6

配置Hadoop集群：

配置path

3. 运行Hadoop

启动namenode

启动datanode

启动YARN：

4. 运行实例

5. 常见问题及其他

1） 防火墙

2） 主机名配置

1 条评论

1）防火墙

2）主机名配置