从零开始搭建Hadoop伪分布式集群。

最新推荐文章于 2023-05-17 15:30:44 发布

大果冻zbd

最新推荐文章于 2023-05-17 15:30:44 发布

阅读量208

点赞数 1

分类专栏：大数据基础学习

本文链接：https://blog.csdn.net/ZBD1202/article/details/117416468

版权

大数据同时被 2 个专栏收录

2 篇文章 0 订阅

订阅专栏

基础学习

2 篇文章 0 订阅

订阅专栏

由于HBase环境一直有问题，一怒之下把Hadoop的环境全部删干净了，重新搭建集群并记录下来，权当复习知识了。

本教程大部分来自尚硅谷的Hadoop教程。

第一部分虚拟机安装

1.1 在VMware中安装centos7

安装步骤略过，一直默认下去就行。
ping一下百度测试网络。
网络畅通：安装eple-release

[root@localhost ~]$ yum install -y epel-release

关闭防火墙以及防火墙开机自启

[root@hadoop100 ~]# systemctl stop firewalld
[root@hadoop100 ~]# systemctl disable firewalld.service

创建用户，修改密码

[root@hadoop100 ~]# useradd atguigu
[root@hadoop100 ~]# passwd 123456

赋予用户root权限

[root@hadoop100 ~]# vim /etc/sudoers

在%wheel下添加一行

## Allow root to run any commands anywhere
root ALL=(ALL) ALL
## Allows people in group wheel to run all commands
%wheel ALL=(ALL) ALL

atguigu ALL=(ALL) NOPASSWD:ALL

在/opt 目录下创建文件夹，并修改所属主和所属组

(1)创建module, software文件夹

[root@hadoop100 ~]# mkdir /opt/module
[root@hadoop100 ~]# mkdir /opt/software

(2)修改module、software文件夹的所有组和所属组均为atguigu

卸载虚拟机自带的JDK

[root@hadoop100 ~]# rpm -qa | grep -i java | xargs -n1 rpm -e --nodeps

重启虚拟机

[root@hadoop100 ~]# reboot

1.2 克隆虚拟机

根据模板机hadoop100，创建hadoop102，hadoop103，hadoop104

修改克隆机IP，例如hadoop102
(1)修改hadoop102的静态IP

[root@hadoop100 ~]# vim /etc/sysconfig/network-scripts/ifcfg-ens33

改成

DEVICE=ens33
TYPE=Ethernet
ONBOOT=yes
BOOTPROTO=static
NAME="ens33"
IPADDR=192.168.10.102
PREFIX=24
GATEWAY=192.168.10.2
DNS1=192.168.10.2

将虚拟机的网关和子网等设置成上述配置
(2)修改克隆主机名称，以hadoop102为例

[root@hadoop100 ~]# vim /etc/hostname
hadoop102

配置hosts文件

[root@hadoop100 ~]# vim /etc/hosts

添加如下内容

192.168.10.100 hadoop100
192.168.10.101 hadoop101
192.168.10.102 hadoop102
192.168.10.103 hadoop103
192.168.10.104 hadoop104

重启克隆机
修改window主机映射文件：C:\Windows\System32\drivers\etc\hosts
添加如下内容：

192.168.10.100 hadoop100
192.168.10.101 hadoop101
192.168.10.102 hadoop102
192.168.10.103 hadoop103
192.168.10.104 hadoop104

第二部分环境安装

1 JDK

在shell中连接到hadoop102 导入jdk-8u212-linux-x64.tar.gz 到/opt/software
解压JDK到/opt/module

[atguigu@hadoop102 software]$ tar -zxvf jdk-8u212-linuxx64.tar.gz -C /opt/module/

配置JDK环境变量

新建/etc/profile.d/my_env.sh

[atguigu@hadoop102 ~]$ sudo vim /etc/profile.d/my_env.sh

添加如下内容：

#JAVA_HOME
export JAVA_HOME=/opt/module/jdk1.8.0_212
export PATH=$PATH:$JAVA_HOME/bin

保存退出后，source一下/etc/proflie 文件

[atguigu@hadoop102 ~]$ source /etc/profile

测试JDK是否安装成功

[atguigu@hadoop102 ~]$ java -version

显示 java version "1.8.0_212"则表示成功

2.hadoop

用shell导入hadoop-3.1.3.tar.gz到/opt/software
解压到/opt/module

添加环境变量
在/etc/profile.d/my_env.sh中添加以下内容

#HADOOP_HOME
export HADOOP_HOME=/opt/module/hadoop-3.1.3
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin

保存退出，执行source /etc/profile使配置文件生效。
测试是否安装成功 hadoop version，若出现版本号，则安装成功。

第三部分脚本

集群分发脚本
a. 在/home/atguigu/bin目录下创建xsync文件

[atguigu@hadoop102 opt]$ cd /home/atguigu
[atguigu@hadoop102 ~]$ mkdir bin
[atguigu@hadoop102 ~]$ cd bin
[atguigu@hadoop102 bin]$ vim xsync

b. 填入如下代码

#!/bin/bash
#1. 判断参数个数
if [ $# -lt 1 ]
then
echo Not Enough Arguement!
exit;
fi
#2. 遍历集群所有机器
for host in hadoop102 hadoop103 hadoop104
do
echo ==================== $host ====================
#3. 遍历所有目录，挨个发送
for file in $@
do
#4. 判断文件是否存在
if [ -e $file ]
then
#5. 获取父目录
pdir=$(cd -P $(dirname $file); pwd)
#6. 获取当前文件的名称
fname=$(basename $file)
ssh $host "mkdir -p $pdir"
rsync -av $pdir/$fname $host:$pdir
else
echo $file does not exists!
fi
done
done

c. 设置SSH免密登录
原理图
在这里插入图片描述

生成公钥和私钥

[atguigu@hadoop102 .ssh]$ pwd
/home/atguigu/.ssh
[atguigu@hadoop102 .ssh]$ ssh-keygen -t rsa

将公钥拷贝到要免密登录的目标机器上

[atguigu@hadoop102 .ssh]$ ssh-copy-id hadoop102
[atguigu@hadoop102 .ssh]$ ssh-copy-id hadoop103
[atguigu@hadoop102 .ssh]$ ssh-copy-id hadoop104

在hadoop103，hadoop104上进行相同操作

将脚本复制到/bin 中，以便全局调用

	[atguigu@hadoop102 bin]$ sudo cp xsync /bin/

同步环境变量配置（root 所有者)

[atguigu@hadoop102 ~]$ sudo ./bin/xsync /etc/profile.d/my_env.sh

让环境变量生效

	[atguigu@hadoop103 bin]$ source /etc/profile
    [atguigu@hadoop104 opt]$ source /etc/profile

第四部分集群配置

1）集群部署规划

注意 NameNode 和 SecondaryNameNode 不要安装在同一台服务器
ResourceManager 也很消耗内存，不要和 NameNode、 SecondaryNameNode 配置在
同一台机器上。
最终结果
hadoop102 hadoop103 hadoop104
HDFS NameNode
DataNode DataNode Secondary
NameNode
YARN NodeManager ResourceManager
NodeManager NodeManager

	hadoop102	hadoop103	hadoop104
HDFS	NameNode DataNode	DataNode	Secondary NameNode
YARN	NodeManager	ResourceManager NodeManager	NodeManager

2）配置文件说明

Hadoop 配置文件分两类：默认配置文件和自定义配置文件，只有用户想修改某一默认
配置值时，才需要修改自定义配置文件，更改相应属性值。

默认配置文件

要获取的默认配置文件	文件存放在Hadoop的jar包中的位置
[core-default.xml]	hadoop-common-3.1.3.jar/core-default.xml
[hdfs-default.xml]	hadoop-hdfs-3.1.3.jar/hdfs-default.xml
[yarn-default.xml]	hadoop-yarn-common-3.1.3.jar/yarn-default.xml
[mapred-default.xml]	hadoop-mapreduce-client-core-3.1.3.jar/mapred-default.xml

自定义配置文件
core-site.xml、 hdfs-site.xml、 yarn-site.xml、 mapred-site.xml 四个配置文件存放在
$HADOOP_HOME/etc/hadoop 这个路径上，用户可以根据项目需求重新进行修改配置。

3）配置集群

1）核心配置文件
配置core-site.xml

[atguigu@hadoop102 ~]$ cd $HADOOP_HOME/etc/hadoop
[atguigu@hadoop102 hadoop]$ vim core-site.xml

文件内容如下：

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
	<!-- 指定 NameNode 的地址 -->
	<property>
		<name>fs.defaultFS</name>
		<value>hdfs://hadoop102:8020</value>
	</property>
	<!-- 指定 hadoop 数据的存储目录 -->
	<property>
		<name>hadoop.tmp.dir</name>
		<value>/opt/module/hadoop-3.1.3/data</value>
	</property>
	<!-- 配置 HDFS 网页登录使用的静态用户为 atguigu -->
	<property>
		<name>hadoop.http.staticuser.user</name>
		<value>atguigu</value>
	</property>
</configuration>

2） HDFS配置文件

[atguigu@hadoop102 hadoop]$ vim hdfs-site.xml

文件内容如下：

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
	<!-- nn web 端访问地址-->
	<property>
		<name>dfs.namenode.http-address</name>
		<value>hadoop102:9870</value>
	</property>
	<!-- 2nn web 端访问地址-->
	<property>
		<name>dfs.namenode.secondary.http-address</name>
		<value>hadoop104:9868</value>
	</property>
</configuration>

3） YARN 配置文件

[atguigu@hadoop102 hadoop]$ vim yarn-site.xml

文件内容如下：

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
	<!-- 指定 MR 走 shuffle -->
	<property>
		<name>yarn.nodemanager.aux-services</name>
		<value>mapreduce_shuffle</value>
	</property>
	<!-- 指定 ResourceManager 的地址-->
	<property>
		<name>yarn.resourcemanager.hostname</name>
		<value>hadoop103</value>
	</property>
	<!-- 环境变量的继承 -->
	<property>
	<name>yarn.nodemanager.env-whitelist</name>
	<value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CO
	NF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAP
	RED_HOME</value>
	</property>
</configuration>

4） MapReduce 配置文件

[atguigu@hadoop102 hadoop]$ vim mapred-site.xml

文件内容如下：

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
	<!-- 指定 MapReduce 程序运行在 Yarn 上 -->
	<property>
		<name>mapreduce.framework.name</name>
		<value>yarn</value>
	</property>
</configuration>

4) 分发集群配置

[atguigu@hadoop102 hadoop]$ xsync /opt/module/hadoop-
3.1.3/etc/hadoop/

第五部分启动集群

1）配置worker

[atguigu@hadoop102 hadoop]$ vim /opt/module/hadoop-3.1.3/etc/hadoop/workers

添加一下内容：

hadoop102
hadoop103
hadoop104

注意：注意：该文件中添加的内容结尾不允许有空格，文件中不允许有空行
同步配置文件：

[atguigu@hadoop102 hadoop]$ xsync /opt/module/hadoop-3.1.3/etc

2) 启动集群

如果集群是第一次启动，需要在 hadoop102 节点格式化 NameNode（注意：格式化 NameNode，会产生新的集群 id，导致 NameNode 和 DataNode 的集群 id 不一致，集群找不到已往数据。如果集群在运行过程中报错，需要重新格式化 NameNode 的话，一定要先停止 namenode 和 datanode 进程，并且要删除所有机器的 data 和 logs 目录，然后再进行格式化。）
```
[atguigu@hadoop102 hadoop-3.1.3]$ hdfs namenode -format
```

启动HDFS

[atguigu@hadoop102 hadoop-3.1.3]$ sbin/start-dfs.sh

在配置了 ResourceManager 的节点（hadoop103）启动 YARN
```
[atguigu@hadoop103 hadoop-3.1.3]$ sbin/start-yarn.sh
```
在Web端查看HDFS的NameNode http://hadoop102:9870
Web 端查看 YARN 的 ResourceManager http://hadoop103:8088

3) 配置历史服务器

配置mapred-site.xml

[atguigu@hadoop102 hadoop]$ vim mapred-site.xml

增加如下配置：

<!-- 历史服务器端地址 -->
<property>
<name>mapreduce.jobhistory.address</name>
<value>hadoop102:10020</value>
</property>
<!-- 历史服务器 web 端地址 -->
<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>hadoop102:19888</value>
</property>

分发配置：

[atguigu@hadoop103 hadoop]$ xsync mapred-site.xml

在 hadoop102 启动历史服务器

[atguigu@hadoop102 hadoop]$ mapred --daemon start historyserver

查看JobHistory
http://hadoop102:19888/jobhistory

4)配置日志的聚集

日志聚集概念：应用运行完成以后，将程序运行日志信息上传到 HDFS 系统上
在这里插入图片描述
日志聚集功能好处：可以方便的查看到程序运行详情，方便开发调试。
注意：开启日志聚集功能，需要重新启动 NodeManager 、 ResourceManager 和
HistoryServer。
步骤：

配置yarn-site.xml

[atguigu@hadoop102 hadoop]$ vim yarn-site.xml

增加如下配置：

<!-- 开启日志聚集功能 -->
<property>
	<name>yarn.log-aggregation-enable</name>
	<value>true</value>
</property>
<!-- 设置日志聚集服务器地址 -->
<property>
	<name>yarn.log.server.url</name>
	<value>http://hadoop102:19888/jobhistory/logs</value>
</property>
<!-- 设置日志保留时间为 7 天 -->
<property>
	<name>yarn.log-aggregation.retain-seconds</name>
	<value>604800</value>
</property>

分发配置

[atguigu@hadoop102 hadoop]$ xsync $HADOOP_HOME/etc/hadoop/yarnsite.xml

关闭 NodeManager 、 ResourceManager 和 HistoryServer

[atguigu@hadoop103 hadoop-3.1.3]$ sbin/stop-yarn.sh
[atguigu@hadoop103 hadoop-3.1.3]$ mapred --daemon stop historyserver

启动 NodeManager 、 ResourceManage 和 HistoryServer

[atguigu@hadoop103 ~]$ start-yarn.sh
[atguigu@hadoop102 ~]$ mapred --daemon start historyserver

4) 编写Hadoop集群常用脚本

Hadoop 集群启停脚本（包含 HDFS， Yarn， Historyserver）： myhadoop.sh

[atguigu@hadoop102 ~]$ cd /home/atguigu/bin
[atguigu@hadoop102 bin]$ vim myhadoop.sh

输入以下内容

#!/bin/bash
if [ $# -lt 1 ]
then
echo "No Args Input..."
exit ;
fi
case $1 in
"start")
echo " =================== 启动 hadoop 集群 ==================="
echo " --------------- 启动 hdfs ---------------"
ssh hadoop102 "/opt/module/hadoop-3.1.3/sbin/start-dfs.sh"
echo " --------------- 启动 yarn ---------------"
ssh hadoop103 "/opt/module/hadoop-3.1.3/sbin/start-yarn.sh"
echo " --------------- 启动 historyserver ---------------"
ssh hadoop102 "/opt/module/hadoop-3.1.3/bin/mapred --daemon start
historyserver"
;;
"stop")
echo " =================== 关闭 hadoop 集群 ==================="
echo " --------------- 关闭 historyserver ---------------"
ssh hadoop102 "/opt/module/hadoop-3.1.3/bin/mapred --daemon stop
historyserver"
echo " --------------- 关闭 yarn ---------------"
ssh hadoop103 "/opt/module/hadoop-3.1.3/sbin/stop-yarn.sh"
echo " --------------- 关闭 hdfs ---------------"
ssh hadoop102 "/opt/module/hadoop-3.1.3/sbin/stop-dfs.sh"
;;
*)
echo "Input Args Error..."
;;
esac

保存后退出，然后赋予脚本执行权限

[atguigu@hadoop102 bin]$ chmod +x myhadoop.sh

查看三台服务器Java进程脚本：jpsall

[atguigu@hadoop102 ~]$ cd /home/atguigu/bin
[atguigu@hadoop102 bin]$ vim jpsal

输入以下内容

#!/bin/bash
for host in hadoop102 hadoop103 hadoop104
do
echo =============== $host ===============
ssh $host jps
done

分发/home/atguigu/bin 目录，保证自定义脚本在三台机器上都可以使用
```
[atguigu@hadoop102 ~]$ xsync /home/atguigu/bin/
```

5) 集群时间同步

时间服务器配置（必须 root 用户）
查看所有节点 ntpd 服务状态和开机自启动状态

[atguigu@hadoop102 ~]$ sudo systemctl status ntpd
[atguigu@hadoop102 ~]$ sudo systemctl start ntpd
[atguigu@hadoop102 ~]$ sudo systemctl is-enabled ntpd

修改hadoop102的ntp.conf配置文件
```
[atguigu@hadoop102 ~]$ sudo vim /etc/ntp.conf
```
修改 1（授权 192.168.10.0-192.168.10.255 网段上的所有机器可以从这台机器上查询和同步时间）
#restrict 192.168.10.0 mask 255.255.255.0 nomodify notrap为restrict 192.168.10.0 mask 255.255.255.0 nomodify notrap
修改 2（集群在局域网中，不使用其他互联网上的时间
```
server 0.centos.pool.ntp.org iburst
server 1.centos.pool.ntp.org iburst
server 2.centos.pool.ntp.org iburst
server 3.centos.pool.ntp.org iburst
```
```
#server 0.centos.pool.ntp.org iburst
#server 1.centos.pool.ntp.org iburst
#server 2.centos.pool.ntp.org iburst
#server 3.centos.pool.ntp.org iburst
```
添加 3（当该节点丢失网络连接，依然可以采用本地时间作为时间服务器为集群中的其他节点提供时间同步）
```
server 127.127.1.0
fudge 127.127.1.0 stratum 10
```
修改 hadoop102 的/etc/sysconfig/ntpd 文件
```
[atguigu@hadoop102 ~]$ sudo vim /etc/sysconfig/ntpd
```
增加内容如下（让硬件时间与系统时间一起同步）
SYNC_HWCLOCK=yes

重新启动 ntpd 服务

[atguigu@hadoop102 ~]$ sudo systemctl start ntpd

设置 ntpd 服务开机启动

[atguigu@hadoop102 ~]$ sudo systemctl enable ntpd

其他机器配置（必须 root 用户)
1）关闭所有节点上 ntp 服务和自启动

[atguigu@hadoop103 ~]$ sudo systemctl stop ntpd
[atguigu@hadoop103 ~]$ sudo systemctl disable ntpd
[atguigu@hadoop104 ~]$ sudo systemctl stop ntpd
[atguigu@hadoop104 ~]$ sudo systemctl disable ntpd

（2）在其他机器配置 1 分钟与时间服务器同步一次

	[atguigu@hadoop103 ~]$ sudo crontab -e

编写定时任务如下：

*/1 * * * * /usr/sbin/ntpdate hadoop102

（3）修改任意机器时间

[atguigu@hadoop103 ~]$ sudo date -s "2021-9-11 11:11:11"

（4） 1 分钟后查看机器是否与时间服务器同步

[atguigu@hadoop103 ~]$ sudo date

大果冻zbd

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
2
评论
从零开始搭建Hadoop伪分布式集群。

由于HBase环境一直有问题，一怒之下把Hadoop的环境全部删干净了，重新搭建集群并记录下来，权当复习知识了。本教程大部分来自尚硅谷的Hadoop教程。第一部分虚拟机安装1.1 在VMware中安装centos7安装步骤略过，一直默认下去就行。ping一下百度测试网络。网络畅通：安装eple-release[root@localhost ~]$ yum install -y epel-release关闭防火墙以及防火墙开机自启[root@hadoop100 ~]# sy
复制链接

扫一扫