快速搭建 HDFS 系统（超详细版）

最新推荐文章于 2025-03-03 22:15:41 发布

安正勋

最新推荐文章于 2025-03-03 22:15:41 发布

阅读量1.9w

点赞数 21

文章标签： HDFS 分布式文件系统

工具及其它专栏收录该内容

125 篇文章

订阅专栏

本文详细介绍如何在五台虚拟机上搭建Hadoop分布式文件系统(HDFS)，包括环境配置、SSH免密码登录设置、HDFS配置及NameNode格式化等关键步骤。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

节点介绍
- 开始搭建 HDFS 系统

节点介绍

首先，准备 5 台虚拟机，其中 1 台虚拟机作为NameNode，4 台虚拟机作为DataNode，分别为：

IP	Hosts（主机名）
`192.168.56.101`	`master`
`192.168.56.102`	`slave1`
`192.168.56.103`	`slave2`
`192.168.56.104`	`slave3`
`192.168.56.105`	`slave4`

在这里，master充当着NameNode的角色，其他的salve充当着DataNode的角色，并且需要修改这 5 台虚拟机上的hosts文件，配置它们的主机名，以便它们可以通过主机名进行互相的访问。

执行命令：vim /etc/hosts

config-hosts
配置完成后，使用vim编辑器的:wq保存退出。

开始搭建 HDFS 系统

在前面，我们已经准备好了虚拟机；在此，我们还需要准备两个资源，分别为 Hadoop 和 JDK 安装包，可通过以下链接到官方获取：

JDK： Java SE Development Kit 8u201
Hadoop：Apache Hadoop Download

当上述两个安装包下载完成之后，可通过 Linux 命令，将两个安装包上传到虚拟机，例如

scp -r /Users/bin.guo/Downloads/hadoop-2.7.7.tar.gz root@192.168.56.101:/home/hdfs-cg
scp -r /Users/bin.guo/Downloads/jdk-8u201-linux-x64.tar.gz root@192.168.56.101:/home/hdfs-cg

基础环境变量配置

第 1 步：解压 Hadoop 安装包

tar-zxvf-hadoop

如上述，使用 Linux 命令tar -zxvf 待解压文件解压 Hadoop 安装包。

第 2 步：配置 Hadoop 的 Java 运行环境

在当前目录解压完成后，进入/hadoop-2.7.3/etc/hadoop目录，这个目录里存放的都是 Hadoop 配置文件，当然，我们需要修改的配置文件也在这个目录中。接下来，编辑hadoop-env.sh文件，配置 Java 环境变量。

执行命令：vim hadoop-env.sh

config-java-env

第 3 步：在 Linux 中配置 Hadoop 环境变量

编辑/etc/profile文件，配置 Hadoop 环境变量。

执行命令：vim /etc/profile

config-hadoop-env
如上图所示，通过在profile文件中追加export PATH=$PATH:/usr/local/hadoop-2.7.3/bin:/usr/local/hadoop-2.7.3/sbin语句，即可配置 Hadoop 环境变量。在这里，如果我们之前没有在profile中配置过PATH环境变量，则需要先配置PATH的环境变量，例如：

JAVA_HOME=/home/hdfs-cg/jdk1.8.0_131
PATH=$JAVA_HOME/bin:$PATH
CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar

export PATH
export JAVA_HOME
export CLASSPTH

export PATH=$PATH:/home/hdfs-cg/hadoop-2.7.3/bin:/home/hdfs-cg/hadoop-2.7.3/sbin

配置完 Hadoop 的环境变量之后，保存文件，并输入以下命令让profile文件立即生效。

执行命令：source /etc/profile

正常情况下，输入source /etc/profile命令不会有任何提示；我们可以输入命令hadoop进行验证，如果出现以下内容，则说明 Hadoop 环境配置成功了。

test-hadoop-source

设置 SSH 免密码登录

由于master机器，也就是192.168.56.101这台机器，其将成为我们 Hadoop 集群的NameNode节点，因此我们配置其可以免密登录集群中其它的slave机器。

执行命令：ssh-keygen -t rsa

ssh-keygen-t-rsa
执行命令后，出现提示可以不予理会，直接按几次回车键就可以了。当出现以下界面时，则说明生成私钥id_rsa和公钥id_rsa.pub成功：

create-rsa-success
接下来，我们把生成的公钥id发送到slave1、slave2、slave3和slave4这 4 台机器。

执行命令：ssh-copy-id slave1

slave1会要求你输入slave1这台机器上的密码：

slave1-nopassword
密码输入正确后，你将会看到以下界面，它说已经添加了密钥，叫你尝试登陆：

slave1-nopassword2
现在，我们输入 SSH 命令测试 slave1 的免密登陆。

执行命令：ssh slave1

配置 HDFS

在所有机器上的/hadoop-2.7.3/etc/hadoop目录中，修改core-site.xml和hdfs-site.xml文件，以完成 HDFS 的配置。

修改core-site.xml，在configuration标签内加入以下配置：

<configuration>
<property>
  <name>fs.defaultFS</name>
  <value>hdfs://master:9000</value>
  <description>HDFS 的 URI，文件系统://namenode标识:端口</description>
</property>

<property>
  <name>hadoop.tmp.dir</name>
  <value>/home/hadoopData</value>
  <description>namenode 上传到 hadoop 的临时文件夹</description>
</property>

<property>
    <name>fs.trash.interval</name>
    <value>4320</value>
</property>
</configuration>

修改hdfs-site.xml，在configuration标签内加入以下配置：

<configuration>
<property>
   <name>dfs.namenode.name.dir</name>
   <value>/home/hadoopData/dfs/name</value>
   <description>datanode 上存储 hdfs 名字空间元数据</description>
 </property>
 
 <property>
   <name>dfs.datanode.data.dir</name>
   <value>/home/hadoopData/dfs/data</value>
   <description>datanode 上数据块的物理存储位置</description>
 </property>
 
 <property>
   <name>dfs.replication</name>
   <value>3</value>
   <description>副本个数，默认配置是 3，应小于 datanode 机器数量</description>
 </property>
 
 <property>
   <name>dfs.webhdfs.enabled</name>
   <value>true</value>
 </property>
 
 <property>
   <name>dfs.permissions.superusergroup</name>
   <value>staff</value>
 </property>
 
 <property>
   <name>dfs.permissions.enabled</name>
   <value>false</value>
 </property>
</configuration>

在这里，我们需要创建 Hadoop 存放数据的文件夹，为了与配置文件中的路径匹配，我们将在home目录下，创建名为hadoopData的文件夹。

执行命令：mkdir /home/hadoopData

当然，我们可以调整此文件夹的位置，只要保证其与配置文件的路径匹配即可。

配置 NameNode 节点

因为master机器是集群中的NameNode节点，因此我们在master机器上进行操作，也就是192.168.56.101这台主机。在master机器的/hadoop-2.7.3/etc/hadoop目录下，修改slaves文件，加入DataNode节点。特别注意，由于我们之前修改了hosts文件，各虚拟机的 IP 已经与主机名绑定，因此在这里，我们之前配置主机名即可。