Hadoop运行环境搭建

最新推荐文章于 2022-04-18 18:42:02 发布

tcan.

最新推荐文章于 2022-04-18 18:42:02 发布

阅读量259

点赞数 1

分类专栏： hadoop环境搭建 #大数据文章标签： hadoop

本文链接：https://blog.csdn.net/T__can/article/details/114395077

版权

#大数据同时被 2 个专栏收录

2 篇文章 0 订阅

订阅专栏

hadoop环境搭建

1 篇文章 0 订阅

订阅专栏

Hadoop运行环境搭建

1、准备一台虚拟机、虚拟机配置要求如下：

（1）内存4G，硬盘50G

（2）安装必要环境

sudo yum install -y epel-release  #
sudo yum install -y psmisc nc net-tools rsync vim lrzsz ntp libzstd openssl-static tree iotop git

（3）修改虚拟机的静态IP

sudo vim /etc/sysconfig/network-scripts/ifcfg-ens33

改成：

图片中框住的内容如果有就改成对应的值，没有就添加

（4）查看Linux虚拟机的虚拟网络编辑器，编辑->虚拟网络编辑器->VMnet8

在这里插入图片描述

（5）查看Windows系统适配器VMware Network Adapter VMnet8的IP地址

右键属性
在这里插入图片描述

2、修改主机名

（1）修改主机名称

#master
sudo hostnamectl --static set-hostname master

（2）配置主机名称映射，打开/etc/hosts

vim /etc/hosts

192.168.1.100 master
192.168.1.101 slave1
192.168.1.102 slave2
192.168.1.103 slave3
192.168.1.104 slave4
192.168.1.105 slave5
192.168.1.106 slave6

（3）修改window7的主机映射文件（hosts文件）

（a）进入C:\Windows\System32\drivers\etc路径

（b）打开hosts文件并添加如下内容

192.168.1.100 master
192.168.1.101 slave1
192.168.1.102 slave2
192.168.1.103 slave3
192.168.1.104 slave4
192.168.1.105 slave5
192.168.1.106 slave6

（4）修改window10的主机映射文件（hosts文件）

（a）进入C:\Windows\System32\drivers\etc路径

（b）拷贝hosts文件到桌面

（c）打开桌面hosts文件并添加如下内容

192.168.1.100 master
192.168.1.101 slave1
192.168.1.102 slave2
192.168.1.103 slave3
192.168.1.104 slave4
192.168.1.105 slave5
192.168.1.106 slave6

（d）将桌面hosts文件覆盖C:\Windows\System32\drivers\etc路径hosts文件

3、关闭防火墙

sudo systemctl stop firewalld #暂时关闭
sudo systemctl disable firewalld #永久关闭

4、创建用户，并设置密码（用户名自己取一个，我用的tc）

sudo useradd tc
sudo passwd tc

5、重启虚拟机

reboot

6、配置tc用户具有root权限

visudo

找到下面一行（99行），在root下面添加一行，如下所示：

在这里插入图片描述

tc      ALL=(ALL)    NOPASSWD:ALL

7、创建文件夹

（1）先创建opt文件夹

sudo mkdir opt

（2）再在/opt目录下创建module、software文件夹

sudo mkdir module #用来存放解压后的jar包
sudo mkdir software #用来存放压缩包

（3）修改module、software文件夹的所有者为自己创建的用户

sudo chown tc:tc /opt/module /opt/software

8、克隆虚拟机

（1）克隆两台虚拟机（slave1、slave2）

在这里插入图片描述

（2）先打开slave1

（a）用Xshell连接slave1修改IP地址和主机名

sudo vim /etc/sysconfig/network-scripts/ifcfg-ens33 #修改ip地址

在这里插入图片描述

sudo hostnamectl --static set-hostname slave1 #修改主机名

slave2和上述步骤相同、ip改为：
在这里插入图片描述
主机名改为：salve2

9、在master上面安装JDK

（1）卸载现有JDK

rpm -qa | grep -i java | xargs -n1 sudo rpm -e --nodeps

（2）用Xshell连接master进入到/opt/software目录将JDK拖到Xshell窗口上面即可

（3）查看是否导入成功

在这里插入图片描述

（4）解压jdk到/opt/module目录下

tar -zvxf /opt/software/jdk-8u271-linux-x64.tar.gz -C /opt/module/

（5）配置JDK环境变量

sudo vim /home/tc/.bash_profile

添加如下内容：

#JAVA_HOME
export JAVA_HOME=/opt/module/jdk1.8.0_271
export PATH=$PATH:$JAVA_HOME/bin

如图：
在这里插入图片描述

（6）刷新环境变量（或关闭Xshell窗口再从新打开一个）

source /home/tc/.bash_profile

（7）检查环境变量是否配置成功

java -version

看到以下内容就说明成功了
在这里插入图片描述

10、在master上面安装Hadoop

Hadoop下载地址链接

（1）用Xshell连接master进入到/opt/software目录将hadoop-3.1.3.tar.gz拖到Xshell窗口上面即可

（2）解压hadoop

tar -zvxf /opt/software/hadoop-3.1.3.tar.gz -C /opt/module/

（3）看下是否解压成功

ls /opt/module

在这里插入图片描述

（4）给hadoop添加环境变量

（a）获取hadoop路径

在这里插入图片描述

（b）打开/home/tc/.bash_profile文件

sudo vim /home/tc/.bash_profile

在末尾添加如下内容：

#HADOOP_HOME
export HADOOP_HOME=/opt/module/hadoop-3.1.3
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin

刷新环境变量

source /home/tc/.bash_profile

（c）测试是否成功

hadoop version

在这里插入图片描述

（d）重启（如果命令不能用再重启）

sudo reboot

11、Hadoop目录结构

（1）查看目录结构

在这里插入图片描述

（2）重要目录

（1）bin目录：存放对Hadoop相关服务（HDFS,YARN）进行操作的脚本
（2）etc目录：Hadoop的配置文件目录，存放Hadoop的配置文件
（3）lib目录：存放Hadoop的本地库（对数据进行压缩解压缩功能）
（4）sbin目录：存放启动或停止Hadoop相关服务的脚本
（5）share目录：存放Hadoop的依赖jar包、文档、和官方案例

12、SSH无密登录配置

（1）配置ssh

（a）基本语法

ssh 另一台电脑的ip地址

例如：

ssh master

（b）ssh连接时出现Host key verification failed的解决方法

The authenticity of host '192.168.1.100 (192.168.1.100)' can't be established.
RSA key fingerprint is cf:1e:de:d7:d0:4c:2d:98:60:b4:fd:ae:b1:2d:ad:06.
Are you sure you want to continue connecting (yes/no)?

解决方法：直接输入yes

（2）无密钥配置

（a）生成公钥和私钥:

ssh-keygen -t rsa

（b）进入到.ssh目录下面分别执行：

cd .ssh/

ssh-copy-id master
ssh-copy-id slave1
ssh-copy-id slave2

注意：还需要在master上采用root账号，配置一下无密登录到master、slave1、slave2；
还需要在slave1上采用tc账号配置一下无密登录到master、slave1、slave2服务器上。

13、xsync集群分发脚本

（1）需求：循环复制文件到所有节点的相同目录下

（2）脚本编写：

（a）在/home/tc目录下面创建xsync文件

cd /home/tc
vim xsync

在该文件中编写如下代码:

#!/bin/bash
#1. 判断参数个数
if [ $# -lt 1 ]
then
  echo Not Enough Arguement!
  exit;
fi
#2. 遍历集群所有机器
for host in master slave1 slave2
do
  echo ====================  $host  ====================
  #3. 遍历所有目录，挨个发送
  for file in $@
  do
    #4 判断文件是否存在
    if [ -e $file ]
    then
      #5. 获取父目录
      pdir=$(cd -P $(dirname $file); pwd)
      #6. 获取当前文件的名称
      fname=$(basename $file)
      ssh $host "mkdir -p $pdir"
      rsync -av $pdir/$fname $host:$pdir
    else
      echo $file does not exists!
    fi
  done
done

（b）修改脚本 xsync 具有执行权限

chmod +x xsync

（c）将脚本移动到/bin中，以便全局调用

sudo mv xsync /bin/

（d）测试脚本

sudo xsync /bin/xsync

14、在master上面分发hadoop和jdk到其他两台虚拟机

xsync /opt/module/

分发环境变量：

scp -r /home/tc/.bash_profile tc@slave1:/home/tc/
scp -r /home/tc/.bash_profile tc@slave2:/home/tc/

15、集群配置

（1）集群部署规划

注意：NameNode和SecondaryNameNode不要安装在同一台服务器
注意：ResourceManager也很消耗内存，不要和NameNode、SecondaryNameNode配置在同一台机器上。

	master	slave1	slave2
HDFS	NameNode、DataNode	DataNode	SecondaryNameNode、DataNode
YARN	NodeManager	ResourceManager、NodeManager	NodeManager

（2）配置集群

（a）核心配置文件

配置core-site.xml：

sudo vim /opt/module/hadoop-3.1.3/etc/hadoop/core-site.xml

文件内容如下：

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://master:8020</value>
    </property>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/opt/module/hadoop-3.1.3/data</value>
    </property>
    <property>
        <name>hadoop.proxyuser.tc.hosts</name>
        <value>*</value>
    </property>
    <property>
        <name>hadoop.proxyuser.tc.groups</name>
        <value>*</value>
    </property>
    <property>
        <name>hadoop.http.staticuser.user</name>
        <value>tc</value>
    </property>
</configuration>

（b）HDFS配置文件

配置hdfs-site.xml：

sudo vim /opt/module/hadoop-3.1.3/etc/hadoop/hdfs-site.xml

文件内容如下：

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration>
    <property>
        <name>dfs.namenode.secondary.http-address</name>
        <value>slave2:9868</value>
    </property>
</configuration>

（c）YARN配置文件

配置yarn-site.xml：

sudo vim /opt/module/hadoop-3.1.3/etc/hadoop/yarn-site.xml

文件内容如下：

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>slave1</value>
    </property>
    <property>
        <name>yarn.nodemanager.env-whitelist</name>
        <value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value>
    </property>
    <property>
        <name>yarn.scheduler.minimum-allocation-mb</name>
        <value>512</value>
    </property>
    <property>
        <name>yarn.scheduler.maximum-allocation-mb</name>
        <value>4096</value>
    </property>
    <property>
        <name>yarn.nodemanager.resource.memory-mb</name>
        <value>4096</value>
    </property>
    <property>
        <name>yarn.nodemanager.pmem-check-enabled</name>
        <value>false</value>
    </property>
    <property>
        <name>yarn.nodemanager.vmem-check-enabled</name>
        <value>false</value>
    </property>
</configuration>

（d）MapReduce配置文件

配置mapred-site.xml：

sudo vim /opt/module/hadoop-3.1.3/etc/hadoop/mapred-site.xml

文件内容如下：

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

还需要配置hadoop-env.sh文件

vim /opt/module/hadoop-3.1.3/etc/hadoop/hadoop-env.sh

添加如下内容：

export JAVA_HOME=/opt/module/jdk1.8.0_271

在集群上分发配置好的Hadoop配置文件:

（e）在集群上分发配置好的Hadoop配置文件

xsync /opt/module/hadoop-3.1.3/etc/hadoop/

去slave1和slave2查看分发情况：

cat /opt/module/hadoop-3.1.3/etc/hadoop/core-site.xml

16、群起集群

（1）配置workers

vim /opt/module/hadoop-3.1.3/etc/hadoop/workers

添加如下内容：

master
slave1
slave2

注意：该文件中添加的内容结尾不允许有空格，文件中不允许有空行。

同步所有节点配置文件:：

xsync /opt/module/hadoop-3.1.3/etc

（2）启动集群

（a）如果集群是第一次启动，需要在master节点格式化NameNode（注意格式化之前，一定要先停止上次启动的所有namenode和datanode进程）

hdfs namenode -format

（b）启动hdfs

start-dfs.sh

（c）在配置了ResourceManager的节点（slave1）启动YARN

start-yarn.sh

（d）Web端查看

浏览器中输入:http://master:9870/

在这里插入图片描述

（3）集群的停止命令

stop-dfs.sh # 在master上面执行
stop-yarn.sh # 在slave1上面执行

17、配置历史服务器

为了查看程序的历史运行情况，需要配置一下历史服务器。具体配置步骤如下：

（1）配置mapred-site.xml

sudo vim /opt/module/hadoop-3.1.3/etc/hadoop/mapred-site.xml

在该文件里面增加如下配置：

<!-- 历史服务器端地址 -->
<property>
    <name>mapreduce.jobhistory.address</name>
    <value>master:10020</value>
</property>

<!-- 历史服务器web端地址 -->
<property>
    <name>mapreduce.jobhistory.webapp.address</name>
    <value>master:19888</value>
</property>

（2）分发配置

xsync $HADOOP_HOME/etc/hadoop/mapred-site.xml

（3）在master启动历史服务器

mapred --daemon start historyserver

（4）查看历史服务器是否启动

在这里插入图片描述

（5）查看JobHistory

在浏览器中输入:http://master:19888/jobhistory

在这里插入图片描述

tcan.

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hadoop运行环境搭建

虚拟机环境的准备1、准备三台虚拟机、虚拟机配置要求如下：（1）单台虚拟机：内存4G，硬盘50G（2）安装必要环境（3）修改克隆虚拟机的静态IP（4）查看Linux虚拟机的虚拟网络编辑器，编辑->虚拟网络编辑器->VMnet8（5）查看Windows系统适配器VMware Network Adapter VMnet8的IP地址2、修改主机名（1）修改主机名称（2）配置主机名称映射，打开/etc/hosts（3）修改window7的主机映射文件（hosts文件）（a）进入C:\Windows\Sys
复制链接

扫一扫