（保姆级）Hadoop-3.3.6、jdk_8u381搭建（大数据入门）

迭子生吃虾滑

已于 2024-11-06 12:19:43 修改

阅读量5.6k

点赞数 41

分类专栏：大数据常用组件文章标签： hadoop java 大数据

于 2023-11-23 01:45:48 首次发布

本文链接：https://blog.csdn.net/hsh241817/article/details/134565916

版权

大数据常用组件专栏收录该内容

3 篇文章

订阅专栏

4、定义虚拟机名称和选择虚拟机和操作系统将要安装的位置：

5、指定磁盘容量

6、点击虚拟机设置，选择Centos的ISO映像文件

7、配置操作系统：

1、日期时间选择亚洲/上海时区

2、软件选择最小安装，如下图即可

3、安装目标位置选择自动分配分区即可，如下图

4、网络和主机名中，将以太网打开，适当选择修改主机名

5、点击开始安装即可

6、设置root密码，一定要设置，创建用户看个人需要，可以在之后创建

三、搭建Hadoop（在此次配置中以hadoop3.3.6进行演示）

1、登录hadoop官网下载hadoop压缩包、登录java官网下载jdk压缩包（jdk1.8.0_381)，tip.下载jdk1.8.0_381需要注册oracle账号

4、配置mapred-site.xml文件：

5、配置yarn-site.xml文件：

6、配置workers文件:

7、配置其他文件以防止hadoop启动失败

创建相关文件目录

4、配置以及检查主节点虚拟机的hadoop的环境变量

5、生效环境变量在每个虚拟机中，使环境变量文件生效（使用finalshell可以同时发送命令到全部会话）

四、启动hadoop集群

最后，祝大家配置hadoop都能一发入魂，good luck！！

迭子生吃虾滑

Hadoop搭建

准备：

软件：VMare Workstation 17 pro

镜像：Centos 7 下载：centos-7-isos-x86_64安装包下载_开源镜像站-阿里云 (aliyun.com)

一、在虚拟机软件安装Linux

1、新建虚拟机：

选择典型安装之后点击下一步

2、选择安装源：

以防万一，首先先点击安装程序光盘映像文件设置好Centos的镜像路径，最好将Centos的镜像选择放在在D盘的某个合适的位置，再点击稍后安装操作系统，点击下一步

3、选择客户机操作系统：

点击下一步

4、定义虚拟机名称和选择虚拟机和操作系统将要安装的位置：

虚拟机的名称改一个统一的名称，比如hsh-hadoop-node2(在此之前我已经安装好了第一个节点）

位置：选择一个D盘的位置，这里将要存放的是Centos操作系统

点击下一步

5、指定磁盘容量

选择最大磁盘大小为20GB

并选择将虚拟磁盘存储为单个文件，前提是你这个操作系统之后不会频繁移动，并且D盘需要有足够大的空间

点击完成

6、点击虚拟机设置，选择Centos的ISO映像文件

点击编辑虚拟机设置,由于之前我们在选择安装源时选择的是稍后安装操作系统，所以我们需要在这个选择合适的ISO镜像文件

确定后点击开启虚拟机

7、配置操作系统：

选择简体中文，点击继续

1、日期时间选择亚洲/上海时区

2、软件选择最小安装，如下图即可

3、安装目标位置选择自动分配分区即可，如下图

4、网络和主机名中，将以太网打开，适当选择修改主机名

5、点击开始安装即可

6、设置root密码，一定要设置，创建用户看个人需要，可以在之后创建

输入root用户名和密码即可登录Centos操作系统

8、虚拟机克隆：

因为要搭建hadoop集群，所以需要多个虚拟机，一个一个安装太慢，可以使用虚拟机克隆的方式

拍摄快照之后，另外三台虚拟机就可以通过快照克隆的方式搭建。

（用的已经配置好hadoop搭建前环境进行演示）

之后选择相应的D盘文件夹装载操作系统文件（克隆）

二、配置hadoop搭建前环境

1、配置每台虚拟机的主机名

为什么要修改每台虚拟机的主机名？

我们克隆的虚拟机的主机名会和原虚拟机的主机名重复，我们给每个虚拟机设置不同的主机名方便辨认和后续ssh免密登陆需要

对四台虚拟机进行以下操作，分别命名为hadoop-master、hadoop-s1、hadoop-s2、hadoop-s3，最后每台虚拟机重启即可完成主机名的修改。其实实际上要完成永久的修改需要sudo获取超级权限，不过我们这里本身登陆的就是root用户就不需要了。

hostnamectl set-hostname hadoop-master

2、配置Linux静态IP

为什么要配置静态IP地址？

目前主流的ip地址分配主要是基于ipv4，但是目前的ipv4的地址已经基本分配完了，所以为了节省ip地址，连接到同一个局域网的设备的ip地址是由父节点动态分配的，以节省ip资源。同一个集群中的设备应尽可能避免ip地址动态分配，这会造成一些不必要的麻烦，所以将虚拟机的ip地址设为静态。

#首先查看该虚拟机的原始ip，输入ip addr 或 ifconfig都可
ip addr
ifconfig

如果ifconfig命令无效或者ip addr命令无法查看到ens33的ip地址，使用以下命令

service network restart

修改ip为静态ip

#控制台输入

vi /etc/sysconfig/network-scripts/ifcfg-ens33

后面的这个ifcfg-ens33根据每个人的配置不同，名字也不一样，可能是ens780都有可能，根据你ip addr查看到的为准

进入到文件中，文件详情如下图所示

需要修改或增添的的内容有BOOTPROTO、IPADDR、GATEWAY、NETMASK、DNS

BOOTPROTO：将DHCP修改为STATIC

IPADDR：ip地址，如果在BOOTROTO中设置为DHCP，即该ip地址为动态分配的，设置为static即为静态ip，即使重启虚拟机也不会改变

GATEWAY：网关，和ip地址前三段相同

NETMASK：子网掩码

修改网关和子网掩码的要求：

点击虚拟机中的编辑，

设置的网关和子网掩码务必要和虚拟机网络设置中的相同，ip地址只要和网关的前三段相同即可，tip. 网关的最后一位一般为2

DNS：

在自己的主机windows系统上，打开cmd，输入ifconfig

如果连接到的是WIFI，就找到无线局域网适配器WLAN，查看DNS服务器，将DNS1、DNS2添加到配置文件中。

最终，将该文件内容修改为以下：

tips:其他的教程可能会说配置DNS为8.8.8.8 和114.114.114.114，8.8.8.8的DNS服务器是微软的DNS服务器，但其实使用这个DNS可能会有问题，所以建议DNS服务器最好就是选择你自己经常连接的wifi自动分配的DNS服务器（不要电脑连接手机热点，手机热点的DNS服务器会经常更换，可能会有问题）

#修改网卡配置后要重启网络服务才能生效

systemctl restart network（如果无效试这个：service network restart ）

#再次查看ip，有无变化

ip addr

观察到ip地址改为文件修改时的ip地址即修改成功

3、Linux主机名和IP映射

为什么要设置主机名和IP映射？

将不同的虚拟机设置一个独有且有规律的名字有助于集群中设备的管理，IP映射也是如此，他将主机名与设备的ip地址绑定，有利于设备的管理和集群工作。

#修改主机映射

vi /etc/hosts

增添 192.168.213.111 hadoop-master （192.168.213.111为文件修改的ip地址，hadoop-master为你想修改的主机名）

并且要将集群中所有的节点主机映射全部添加（每台虚拟机都需要配置，之后我们可以通过scp命令将文件传输到其他节点上，现在不需要去另外节点配置）

4、关闭Linux防火墙

为什么关闭防火墙？

防火墙会阻挡集群中每个设备之间的通信，防火墙可能会阻止某些端口的连接或者关闭端口，总之打开各个设备的防火墙有害于集群之间的通信

#关闭防火墙

systemctl stop firewalld.service

#查看防火墙状态

systemctl status firewalld.service

#开启防火墙

systemctl start firewalld.service

#禁用防火墙,可防止防火墙开机自启动

systemctl disable firewalld.service

5、Linux SSH免密登录

为什么设置ssh免密登录？

集群中的设备之间存在某些共享的文件和数据，如果不设置免密登录，则每次设备之间获取共享数据时都要输入密码，大幅降低了集群的工作效率。

首先在控制台切换到用户根目录，使用ssh-keygen -t rsa命令（ssh-keygen 是密钥生成器，-t为参数 rsa是一种加密算法）生成密钥对（即公钥文件id_rsa.pub和私钥文件id_rsa）

#切换到用户根目录

cd ~

#进入ssh目录下 .ssh在用户根目录下使用ls命令是无法显示的，他是被隐藏的目录

cd .ssh

ssh-keygen -t rsa

重复按下Enter键出现以下内容即生成密钥对成功

接下来再查看.ssh目录的文件，并将公钥文件id_rsa.pub中的内容复制到相同目录下的authorized_keys中

cd .ssh/

ls

cp id_rsa.pub authorized_keys

再然后以上操作对所有虚拟机都要进行一遍操作，并且将每台虚拟机中的id_rsa.pub中的内容拷贝到一台虚拟机中的authorized_keys文件中（在本教程中，我将s1、s2、s3中的id_rsa.pub文件内容都拷贝到了master的authorized_keys文件中，后面再全部一一复制到其他虚拟机中），拷贝有远程连接软件会方便很多，如果没有远程连接软件，可以自己试试其他方法

以下为各台虚拟机id_rsa.pub文件情况

拷贝到master之后

以下为matser节点的authorizer_keys文件

接下来再将matser节点的authorized_keys远程拷贝到其他节点（其他节点也相同）

切换到Hadoop用户的根目录下，为.ssh目录及文件赋予相应权限

cd ~ # 切换到用户根目录下

chmod 700 .ssh chmod 600 .ssh/*

最后使用ssh命令登录hadoop-s1，第一次登录需要输入yes进行确认，第二次则不用，此时表示设置成功，其他节点也是如此。这里建议在完成了免密登陆之后给四台虚拟机之间两两ssh连接一遍，方便后续scp传输不需要再yes确定。

如果第二次连接依旧还需要密码，则可能是 chmod 700 .ssh chmod 600 .ssh/* 并没有执行或执行成功，这会导致hadoop集群无法正常启动，免密登录设置这一步很重要

ssh hadoop-s1 # hadoop-s1 为主机映射中修改的主机名

EX.最后再配置一个时间同步（在ssh目录下使用以下命令）

# 配置时间同步，在每台虚拟机上使用以下命令

crontab -e

# 在文件内输入以下内容并保存

0 1 * * * /usr/sbin/ntpdate cn.pool.ntp.org

# 以上这是同步系统时间的Cron表达式，在每天的每个小时的第一分钟（0分1秒）使用ntpdate工具从cn.pool,ntp.org服务器同步系统时间

6、关键一步，快照保存

每次完成一次重要的配置或者软件安装，最好都需要进行一次快照保存，以便之后恢复历史节点

记录本次配置的关键信息，点击拍摄快照即可

三、搭建Hadoop（在此次配置中以hadoop3.3.6进行演示）

1、登录hadoop官网下载hadoop压缩包、登录java官网下载jdk压缩包（jdk1.8.0_381)，tip.下载jdk1.8.0_381需要注册oracle账号

Hadoop下载网址：Apache Hadoop

jdk下载网站：Java Downloads | Oracle 中国

下载好之后打开远程连接软件（如WinSCP、finallshell，我自己用的是finallshell）连接虚拟机，上传hadoop和jdk压缩包（jdk使用1.8版本）

进入压缩包所在的目录，并进入相关文件夹解压两个压缩包，我自己的hadoop安装目录是放在/home/Hadoop目录下的

#进入到各自压缩包所在的文件目录

#解压压缩包

tar -zxvf hadoop-3.3.6.tar.gz

tar -zxvf jdk-8u381-linux-x64.tar.gz

2、解压缩好之后，配置jdk环境变量

vi /etc/profile

#在文件中添加自己的jdk路径

export JAVA_HOME=/home/Language/JAVA/jdk1.8/jdk1.8.0_381

export JRE_HOME=${JAVA_HOME}/jre

export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib

export PATH=${JAVA_HOME}/bin:$PATH

生效环境变量（也可以等hadoop的环境变量配好之后再生效环境变量，但推荐还是每配置好一个环境就生效以查验是否正确安装）

source /etc/profile # 生效环境变量

java -version # 检查java环境

观察到java version和安装的jdk版本相同即可

3、配置hadoop

#进入hadoop目录

cd /home/softwares/Hadoop/hadoop-3.3.6/etc/hadoop #这个是我自己的hadoop目录，每个人不同

进入hadoop目录配置hadoop-env.sh文件及其他重要文件

以下文件中的中文注释建议最好在文件中删除以避免不必要的bug和问题！！！

1、配置hadoop-env.sh:

# 打开vi编辑器编辑文件

vi hadoop-env.sh

# 修改或添加以下内容

export JAVA_HOME=/home/Language/JAVA/jdk1.8/jdk1.8.0_381 #都是修改为自己安装的路径

export HADOOP_HOME=/home/Hadoop/hadoop-3.3.6

2、配置core-site.xml文件：

# 打开vi编辑器编辑文件

vi core-site.xml

# 在configureation之间添加以下内容

<property>
        <name>fs.defaultFS</name> # fs.defaultFS是指定Hadoop文件系统的默认URI 
        <value>hdfs://hadoop-master:9000</value> # 表示默认的Hadoop的文件系统是运行在hadoop_master节点上
</property> 
<property> 
        <name>hadoop.tmp.dir</name> #hadoop的临时文件存放位置             
        <value>/home/softwares/Hadoop/hadoop-3.3.6/HadoopData</value> #将hadoop的临时文件存储到HadoopData目录下 
</property>

上面的这张图有误，我自己的主节点名为hadoop-master，大家配的时候配自己的主节点(master)名即可

3、配置hdfs-site.xml文件：

# 使用vi编辑器编辑文件

vi hdfs-site.xml

# 添加或修改内容如下 

<property> 
        <name>dfs.namenode.secondary.http-address</name> #这个是为主节点配置一个副本节点，防止主节点宕机数据丢失，但其实在实际情况中，secondary节点和master节点不在同一台机器或服务器上配置 
        <value>hadoop-master:50090</value> 
</property> 
<property> 
        <name>dfs.replication</name> #指定数据块的复制数为3 
        <value>3</value> 
</property>
<property> 
        <name>dfs.datanode.data.dir</name> #指定DataNode存储块数据的目录路径         
        <value>/home/softwares/Hadoop/hadoop-3.3.6/Hadoop_tmpData/dfs/DATA_datanode</value> # DATA_datanode文件夹需要之后自行创建，不过好像hadoop集群再启动的时候如果没有也会自行创建，但还是自己创建一个最好 
</property> 
<property> 
        <name>dfs.namenode.name.dir</name> #指定NameNode存储元数据的目录路径 
        <value>/home/softwares/Hadoop/hadoop-3.3.6/Hadoop_tmpData/dfs/DATA_namenode</value> # DATA_namenode如上 
</property>

4、配置mapred-site.xml文件：

# 打开vi编辑器编辑文件

vi mapred-site.xml

# 添加或修改以下内容 
<property> 
        <name>mapreduce.framework.name</name> 表示MapReduce应用程序应在YARN（Yet Another Resource Negotiator）框架上运行。 
        <value>yarn</value>
</property> 
<property> 
        <name>mapreduce.jobhistory.address</name> # 此属性指定 JobHistory 服务器的地址，用于跟踪已完成和正在运行的作业。 
        <value>hadoop-master:10020</value> 
</property> 
<property> 
        <name>mapreduce.jobhistory.webapp.address</name> # 此属性定义 JobHistory 服务器的 Web 应用程序地址。用户可以通过指定地址（在本例中为“hadoop-master：19888”）的 Web 界面访问作业历史记录信息。 
        <value>hadoop-master:19888</value> 
</property> 
<property> 
        <name>yarn.app.mapreduce.am.env</name> # 此属性在 YARN 应用程序中运行时为 MapReduce ApplicationMaster （AM） 设置环境变量。 
        <value>HADOOP_MAPRED_HOME=/home/Hadoop/hadoop-3.3.6</value> 
</property> 
<property> 
        <name>mapreduce.map.env</name> 
        <value>HADOOP_MAPRED_HOME=/home/Hadoop/hadoop-3.3.6</value> # 这个包括下面的属性分别为 map 和 reduce 任务设置环境变量。 
</property> 
<property> 
        <name>mapreduce.reduce.env</name> 
        <value>HADOOP_MAPRED_HOME=/home/Hadoop/hadoop-3.3.6</value> 
</property>

5、配置yarn-site.xml文件：

# 打开vi编辑器编辑文件

vi yarn-site.xml

#添加或修改为以下内容 
<property> 
        <name>yarn.resourcemanager.hostname</name> # 此属性设置YARN资源管理器的主机名。在这里，它被设置为 "hadoop-master"，这表示YARN资源管理器应该运行在名为 "hadoop-master" 的主机上。 
        <value>hadoop_master</value> 
</property> 
<property> 
        <name>yarn.nodemanager.aux-services</name> # 个属性定义了NodeManager上运行的辅助服务。在这里，它被设置为 "mapreduce_shuffle"，这表示NodeManager将提供MapReduce的shuffle服务。MapReduce中的shuffle是指在Map任务完成后，将输出数据传输到Reduce任务的过程。     
        <value>mapreduce_shuffle</value> 
</property>

6、配置workers文件:

# 打开vi编辑器编辑文件

vi workers

删除localhost

#加入以下内容 
hadoop-s1 
hadoop-s2 
hadoop-s3

注意：如果在这个workers文件当中，将hadoop-master也添加进来，那么最后hadoop集群启动之后，在hadoop-master主节点也会存在datanode进程，如果不添加则不存在，只会在从节点中会有datanode进程。建议master节点上不要添加datanode，master节点主要负责管理即可。

7、配置其他文件以防止hadoop启动失败

在start-dfs.sh，stop-dfs.sh 两个文件顶部添加以下参数

以上这两个文件在Hadoop/hadoop-3.3.6/sbin文件当中

HDFS_DATANODE_USER=root 
HADOOP_SECURE_DN_USER=hdfs 
HDFS_NAMENODE_USER=root 
HDFS_SECONDARYNAMENODE_USER=root

在start-yarn.sh，stop-yarn.sh两个文件顶部添加以下参数

YARN_RESOURCEMANAGER_USER=root 
HADOOP_SECURE_DN_USER=yarn 
YARN_NODEMANAGER_USER=root

以上配置是为了防止ERROR Attempting to operate on hdfs namenode as root 的报错，因为我们目前的整个集群都是基于linux的root用户配置的，其实在在真实的生产环境中，是不会用root用户的，因为这会存在安全问题，但目前初学者来说大部分都是使用root用户，所以也可以强制hadoop使用root用户启动运行。

创建相关文件目录

hadoop配置完成后 cd 回到hadoop-3.3.6目录，创建HadoopData目录和DATA_datanode、DATA_namenode目录（在本例子中，目录路径为：/home/softwares/Hadoop/hadoop-3.3.6/HadoopData）

cd /home/softwares/Hadoop/hadoop-3.3.6
mkdir HadoopData #这个文件夹是在配置core-site.xml文件时，我们自定义配置的临时数据存放目录

mkdir Hadoop_tmpData/dfs/DATA_datanode #同上，但是是hdfs-site.xml中的

mkdir Hadoop_tmpData/dfs/DATA_namenode

4、配置以及检查主节点虚拟机的hadoop的环境变量

1、配置Hadoop环境变量

# 编辑文件

vi /etc/profile

# 添加以下内容： 
export HADOOP_HOME=/home/softwares/Hadoop/hadoop-3.3.6 
export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH

2、测试是否正确安装

# 生效环境变量

source /etc/profile

# 检查hadoop是否正确安装

hadoop version

出现如下页面即为安装成功

5、传送相应文件至从节点，并生效环境变量

要传的文件有Hadoop（在我的目录里，Hadoop目录下是包括了hadoop-3.3.6的，/home/softwares/Hadoop/hadoop-3.3.6，其实只需要传hadoop-3.3.6目录即可，具体看自己配的环境变量路径和hadoop配置文件里的路径）、JAVA目录（我自己的JAVA目录下包括了jdk-1.8，，/home/Language/JAVA/jdk1.8/jdk1.8.0_381，其实只需要上传jdk-1.8目录即可，具体看自己配的环境变量路径和hadoop配置文件里的路径），profile文件（环境变量文件， /etc/profile）

1、传送hosts文件

在/etc目录下

scp -r hosts hadoop-s1:/etc/hosts

scp -r hosts hadoop-s2:/etc/hosts

scp -r hosts hadoop-s3:/etc/hosts

2、传送Hadoop目录

回到softwares目录

将Hadoop/hadoop-3.3.6传送到s1,s2,s3的指定目录下(省的每个虚拟机都要修改相同的配置）

#在master的softwares目录下执行以下命令

scp -r Hadoop hadoop-s1:/home/softwares/Hadoop # hadoop-s1是我们当时主机映射是给从节点起的名字

scp -r Hadoop hadoop-s2:/home/softwares/Hadoop

scp -r Hadoop hadoop-s3:/home/softwares/Hadoop

3、传送JAVA/jdk-1.8

将jdk的包和环境变量的文件传送到s1 s2 s3。

#传送jdk包，首先要回到home的目录下

cd /home

scp -r Language hadoop-s1:/home/Language

scp -r Language hadoop-s2:/home/Language

scp -r Language hadoop-s3:/home/Language