大数据技术之Hadoop完全分布式集群搭建+Centos7配置连通外网和主机

本文链接：https://blog.csdn.net/IronmanJay/article/details/104944906

系列博客
1、大数据技术之Hadoop完全分布式集群搭建+Centos7配置连通外网和主机
2、大数据技术之Hadoop编译源码
3、大数据技术之Hadoop分布式文件系统HDFS系统知识整理（从入门到熟练操作）
4、大数据技术之Hadoop分布式计算框架MapReduce系统知识整理（从入门到熟练操作）

文章目录

一、Hadoop是什么
二、Hadoop组成
- 2.1 Hadoop1.x
- 2.2 Hadoop2.x
三、Hadoop集群搭建所需工具
四、Hadoop集群配置前期准备
五、Hadoop运行环境搭建
六、Hadoop完全分布式集群环境正式搭建

一、Hadoop是什么

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。
主要解决，海量数据的存储和海量数据的分析计算问题。
Hadoop并不只是单单一个技术，而是一个生态圈，里面包括Spark、Flume、HBase、Kafka、Sqoop、Hive、Oozie、Azkaban、Zookeeper。

二、Hadoop组成

2.1 Hadoop1.x

MapReduce（计算+资源调度）
HDFS（数据存储）
Common（辅助工具）

2.2 Hadoop2.x

MapReduce（计算）
Yarn（资源调度）
HDFS（数据存储）
Common（辅助工具）

四、Hadoop集群配置前期准备

克隆虚拟机（克隆三台，首先配置第一台，剩下两台由于篇幅有限，不再复述，步骤和第一台一样）
修改主机名，我设置为hadoop102

hostnamectl set-hostname 你要设置的主机名

关闭防火墙

systemctl stop firewalld.service # 关闭防火墙
systemctl disable firewalld.service # 禁止开机自启

配置虚拟机网络，可以连通外网和主机

①：修改虚拟机网络为NAT模式
在这里插入图片描述

②：打开虚拟网络编辑器，将我框起来的ip地址和子网掩码记下来，继续点击NAT配设置，同样记下来框起来的，后面要用。在这里插入图片描述

③：从这里开始进入root模式，首先使用如下命令进入网络配置，然后按照我的图修改您的配置，请和我保持一致，没有的东西就自己写上，然后按照我的配置。

vim /etc/sysconfig/network-scripts/ifcfg-ens32 #电脑不同最后面的ens32可能不一样，但是就找差不多的就行

在这里插入图片描述
④：重启网络（配置到这里可以ping一下百度之类的，但是还没全部完成，完全按照我的做，应该没问题，我们还需要配置虚拟机之间的连通，所以另外两台虚拟机请按照上面的操作配置。）

service network restart

⑤：配置和另外两台的连通（我三台分别叫hadoop102、hadoop103、hadoop104）

vim /etc/hosts

在这里插入图片描述

⑥：测试连接，我们分别ping百度、主机、和另外两台虚拟机，如果如下图，则证明配置成功。
在这里插入图片描述

五、Hadoop运行环境搭建

在/opt下面新建module和software，分别用来存放安装包和程序
使用连接工具将上面我提供的安装包放入software，然后开始安装jdk，首先卸载之前的jdk，命令如下

rpm -e --nodeps java-1.8.0-openjdk-1.8.0.102-4.b14.el7.x86_64
rpm -e --nodeps java-1.8.0-openjdk-headless-1.8.0.102-4.b14.el7.x86_64
rpm -e --nodeps java-1.7.0-openjdk-headless-1.7.0.111-2.6.7.8.el7.x86_64
rpm -e --nodeps java-1.7.0-openjdk-1.7.0.111-2.6.7.8.el7.x86_64

然后解压jdk到module中

tar -zxvf jdk-8u144-linux-x64.tar.gz -C /opt/module/

然后配置jdk环境变量，首先获取jdk路径（在解压后的目录运行pwd命令，如下，将这个目录保存下来）

[root@hadoop102 jdk1.8.0_144]$ pwd
/opt/module/jdk1.8.0_144

打开/etc/profile文件

vim /etc/profile

在profile文件末尾添加JDK路径，保存后退出

#JAVA_HOME
export JAVA_HOME=/opt/module/jdk1.8.0_144
export PATH=$PATH:$JAVA_HOME/bin

安装hadoop，前面的步骤一样，将安装包解压到module中，然后使用pwd获取路径保存，然后打开/etc/profile文件，在profile文件末尾添加JDK路径，保存后退出。

##HADOOP_HOME
export HADOOP_HOME=/opt/module/hadoop-2.7.2
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin

让修改后的文件生效

source /etc/profile

如下图所示，即生效

至此，一台机器的前期准备工作已完成，另外两台完全按照一样的步骤操作，按照我的一步一步来，肯定没问题，该踩的坑我都踩过了hh~

六、Hadoop完全分布式集群环境正式搭建

6.1 编写集群分发脚本xsync

在/home/IronmanJay目录下创建bin目录，并在bin目录下创建xsync文件

mkdir bin
cd bin/
touch xsync
vi xsync

文件内容如下

#!/bin/bash
#1 获取输入参数个数，如果没有参数，直接退出
pcount=$#
if((pcount==0)); then
echo no args;
exit;
fi
#2 获取文件名称
p1=$1
fname=`basename $p1`
echo fname=$fname
#3 获取上级目录到绝对路径
pdir=`cd -P $(dirname $p1); pwd`
echo pdir=$pdir
#4 获取当前用户名称
user=`whoami`
#5 循环
for((host=103; host<105; host++)); do
echo ------------------- hadoop$host --------------   
rsync -rvl $pdir/$fname $user@hadoop$host:$pdir
done

修改脚本 xsync 具有执行权限

chmod 777 xsync

调用脚本形式：xsync 文件名称

xsync /home/ironmanjay/bin

注：如果将xsync放到/home/IronmanJay/bin目录下仍然不能实现全局使用，可以将xsync移动到/usr/local/bin目录下。

6.2 集群配置

这里我们首先配置hadoop102一个主机，配置好之后我们把配置文件使用上面的功能分发下去，这样就实现了集群的配置。

配置core-site.xml，在文件中编写如下配置（在hadoop目录下）

vim core-site.xml

<!-- 指定HDFS中NameNode的地址-->
<property>
     <name>fs.defaultFS</name>
<value>hdfs://hadoop102:9000</value>
</property>

<!-- 指定Hadoop运行时产生文件的存储目录-->
<property>
     <name>hadoop.tmp.dir</name>
     <value>/opt/module/hadoop-2.7.2/data/tmp</value>
</property>

配置hadoop-env.sh

[root@hadoop102 hadoop]$ vim hadoop-env.sh
export JAVA_HOME=/opt/module/jdk1.8.0_144

配置hdfs-site.xml，在该文件中编写如下配置

vim hdfs-site.xml

<property>
     <name>dfs.replication</name>
     <value>3</value>
</property>

<!-- 指定Hadoop辅助名称节点主机配置 -->
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>hadoop104:50090</value>
</property>

配置yarn-env.sh

[root@hadoop102 hadoop]$ vim yarn-env.sh
export JAVA_HOME=/opt/module/jdk1.8.0_144

配置yarn-site.xml，在该文件中增加如下配置

vim yarn-site.xml

<!-- Reducer获取数据的方式-->
<property>
     <name>yarn.nodemanager.aux-services</name>
     <value>mapreduce_shuffle</value>
</property>

<!-- 指定YARN的ResourceManager的地址-->
<property>
     <name>yarn.resourcemanager.hostname</name>
     <value>hadoop103</value>
</property>

配置mapred-env.sh

[root@hadoop102 hadoop]$ vim mapred-env.sh
export JAVA_HOME=/opt/module/jdk1.8.0_144

配置mapred-site.xml，在该文件中增加如下配置

[root@hadoop102 hadoop]$ cp mapred-site.xml.template mapred-site.xml
[root@hadoop102 hadoop]$ vim mapred-site.xml

<!-- 指定MR运行在Yarn上
-->
<property>
     <name>mapreduce.framework.name</name>
     <value>yarn</value>
</property>

在集群上分发配置好的Hadoop配置文件

xsync /opt/module/hadoop-2.7.2/

查看文件分发情况

cat /opt/module/hadoop-2.7.2/etc/hadoop/core-site.xml

6.3 SSH无密登录配置

生成公钥和私钥，然后敲（三个回车），就会生成两个文件id_rsa（私钥）、id_rsa.pub（公钥）

[root@hadoop102 .ssh]$ ssh-keygen -t rsa

将公钥拷贝到要免密登录的目标机器上

ssh-copy-id hadoop102
ssh-copy-id hadoop103
ssh-copy-id hadoop104

注：还需要在hadoop102上采用root账号，配置一下无密登录到hadoop102、hadoop103、hadoop104；
还需要在hadoop103上采用atguigu账号配置一下无密登录到hadoop102、hadoop103、hadoop104服务器上。

6.4 群起集群

配置slaves，向文件中增加如下内容，注意，严格按照我的格式，不允许有空格，文件中不允许有空行

cd /opt/module/hadoop-2.7.2/etc/hadoop/slaves

vim slaves

hadoop102
hadoop103
hadoop104

同步所有节点配置文件

xsync slaves

如果集群是第一次启动，需要格式化NameNode（注意格式化之前，一定要先停止上次启动的所有namenode和datanode进程，然后再删除data和log数据）

[root@hadoop102 hadoop-2.7.2]$ bin/hdfs namenode -format

(hadoop102) 启动HDFS，终端输入jps出现下图即成功启动HDFS

[root@hadoop102 hadoop-2.7.2]$ sbin/start-dfs.sh

在这里插入图片描述

(hadoop103) 启动YARN，终端输入jps出现下图即成功启动YARN

[root@hadoop103 hadoop-2.7.2]$ sbin/start-yarn.sh

在这里插入图片描述
注意：NameNode和ResourceManger如果不是同一台机器，不能在NameNode上启动 YARN，应该在ResouceManager所在的机器上启动YARN。
6. Web端查看SecondaryNameNode
浏览器中输入：http://hadoop102:50090/status.html
查看OverView信息，如下图所示，即配置成功
在这里插入图片描述

6.5 集群启动/停止方式总结

各个服务组件逐一启动/停止

# 分别启动/停止HDFS组件
hadoop-daemon.sh start / stop  namenode / datanode /secondarynamenode
# 启动/停止YARN
yarn-daemon.sh start / stop  resourcemanager / nodemanager

各个模块分开启动/停止（配置ssh是前提）常用

# 整体启动/停止HDFS
start-dfs.sh  /  stop-dfs.sh
# 整体启动/停止YARN
start-yarn.sh  /  stop-yarn.sh

6.6 集群时间同步

首先从现在开始进入root用户，然后检查ntp是否安装，如下图即安装

rpm -qa|grep ntp

在这里插入图片描述

修改ntp配置文件，修改内容如下

vim /etc/ntp.conf

a）修改1（授权192.168.1.0-192.168.1.255网段上的所有机器可以从这台机器上查询和同步时间）
#restrict 192.168.1.0
mask 255.255.255.0 nomodify notrap为
restrict 192.168.1.0 mask
255.255.255.0 nomodify notrap

b）修改2（集群在局域网中，不使用其他互联网上的时间）
server 0.centos.pool.ntp.org iburst
server 1.centos.pool.ntp.org iburst
server 2.centos.pool.ntp.org iburst
server 3.centos.pool.ntp.org iburst为
#server 0.centos.pool.ntp.org iburst
#server 1.centos.pool.ntp.org iburst
#server 2.centos.pool.ntp.org iburst
#server 3.centos.pool.ntp.org iburst

c）添加3（当该节点丢失网络连接，依然可以采用本地时间作为时间服务器为集群中的其他节点提供时间同步）
server 127.127.1.0
fudge 127.127.1.0 stratum 10