Hadoop基础环境搭建完整版

黄开A

已于 2022-04-29 01:08:48 修改

阅读量1.8k

点赞数 1

分类专栏：大数据文章标签： hadoop hdfs

于 2021-01-06 01:07:57 首次发布

本文链接：https://blog.csdn.net/sinat_37316828/article/details/112256427

版权

大数据专栏收录该内容

3 篇文章 0 订阅

订阅专栏

Hadoop基础环境搭建（转载尚硅谷）

说明

个人学习记录
基于虚拟机搭建，需要提前准备虚拟机环境
搭建版本：hadoop-3.1.3
搭建HDFS和yarn
提前准备Hadoop安装包：hadoop-3.1.3.tar.gz
Hadoop下载地址：https://archive.apache.org/dist/hadoop/common/hadoop-3.1.3/
提前准备JDK安装包：jdk-8u212-linux-x64.tar.gz

环境准备

准备3台虚拟机，最低要求：内存4G，硬盘50G
这里准备的虚拟机是16G，硬盘100G的配置

机器配置如下：

hostname	ip	内存	cpu	磁盘
cdh01	192.168.43.12	16G	2c	100G
cdh02	192.168.43.135	16G	2c	100G
cdh03	192.168.43.75	16G	2c	100G

开始搭建

环境配置

创建用户

这里使用hsy用户

useradd hsy
passwd 123456

配置用户具有root权限

vim /etc/sudoers

## Allow root to run any commands anywhere
root  ALL=(ALL)     ALL
hsy   ALL=(ALL)     ALL

依赖下载

所有机器都下载依赖，或者使用其中一台下载好，在进行克隆

sudo yum install -y epel-release
sudo yum install -y psmisc nc net-tools rsync vim lrzsz ntp libzstd openssl-static

时间同步启动（3台机都执行）

systemctl start ntpd

时间同步停止命令（不用执行）

systemctl stop ntpd

修改主机名

每台机器设置各自的hostname

sudo hostnamectl --static set-hostname cdh01
sudo hostnamectl --static set-hostname cdh02
sudo hostnamectl --static set-hostname cdh03

设置hosts文件

所有机器都设置

sudo vim /etc/hosts

192.168.43.12   cdh01
192.168.43.135  cdh02
192.168.43.75   cdh03

关闭防火墙

sudo systemctl stop firewalld
sudo systemctl disable firewalld

创建文件夹

在/opt目录下创建module、software文件夹

sudo mkdir module
sudo mkdir software

修改module、software文件夹的所有者cd

sudo chown hsy:hsy /opt/module/opt/software

安装JDK

上传JDK安装包到/opt/software/目录

解压到/opt/module目录下

tar vf jdk-8u212-linux-x64.tar.gz -C /opt/module/

设置环境变量

sudo vim /etc/profile

#JAVA_HOME
export JAVA_HOME=/opt/module/jdk1.8.0_212
export PATH=$PATH:$JAVA_HOME/bin

执行source使环境变量生效

sudo source /etc/profile

测试JDK

java -version

安装Hadoop

上传hadoop安装包到/opt/software/目录

解压到/opt/module目录下

tar vf hadoop-3.1.3.tar.gz -C /opt/module/

设置环境变量

sudo vim /etc/profile

##HADOOP_HOME
export HADOOP_HOME=/opt/module/hadoop-3.1.3
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin

执行source使环境变量生效

sudo source /etc/profile

Hadoop目录结构

drwxr-xr-x. 2 hsy hsy  4096 12月  22 2020 bin
drwxr-xr-x. 3 hsy hsy  4096 12月  22 2020 etc
drwxr-xr-x. 2 hsy hsy  4096 12月  22 2020 include
drwxr-xr-x. 3 hsy hsy  4096 12月  22 2020 lib
drwxr-xr-x. 2 hsy hsy  4096 12月  22 2020 libexec
-rw-r--r--. 1 hsy hsy 15429 12月  22 2020 LICENSE.txt
-rw-r--r--. 1 hsy hsy   101 12月  22 2020 NOTICE.txt
-rw-r--r--. 1 hsy hsy  1366 12月  22 2020 README.txt
drwxr-xr-x. 2 hsy hsy  4096 12月  22 2020 sbin
drwxr-xr-x. 4 hsy hsy  4096 12月  22 2020 share

bin目录：存放对Hadoop相关服务（HDFS,YARN）进行操作的脚本
etc目录：Hadoop的配置文件目录，存放Hadoop的配置文件
lib目录：存放Hadoop的本地库（对数据进行压缩解压缩功能）
sbin目录：存放启动或停止Hadoop相关服务的脚本
share目录：存放Hadoop的依赖jar包、文档、和官方案例

Hadoop运行模式

Hadoop运行模式包括：本地模式、伪分布式模式以及完全分布式模式。(这里使用完全分布式模式)

SSH无密登录配置

生成公钥和私钥（cdh01操作）

ssh-keygen -t rsa

然后敲三个回车，就会生成两个文件id_rsa（私钥）、id_rsa.pub（公钥）

将公钥拷贝到要免密登录的目标机器上（cdh01操作）

ssh-copy-id cdh01
ssh-copy-id cdh02
ssh-copy-id cdh03

集群分发脚本xsync

编辑文件

cd /home/hsy
vim xsync

脚本内容

#!/bin/bash
#1. 判断参数个数
if [ $# -lt 1 ]
then
  echo Not Enough Arguement!
  exit;
fi
#2. 遍历集群所有机器
for host in cdh01 cdh02 cdh03
do
  echo ====================  $host  ====================
  #3. 遍历所有目录，挨个发送
  for file in $@
  do
    #4 判断文件是否存在
    if [ -e $file ]
    then
      #5. 获取父目录
      pdir=$(cd -P $(dirname $file); pwd)
      #6. 获取当前文件的名称
      fname=$(basename $file)
      ssh $host "mkdir -p $pdir"
      rsync -av $pdir/$fname $host:$pdir
    else
      echo $file does not exists!
    fi
  done
done

修改脚本 xsync 具有执行权限

chmod +x xsync

将脚本移动到/bin中，以便全局调用

sudo mv xsync /bin/

测试脚本（将当前机器的/bin/xsync文件scp到cdh01 cdh02 cdh03的相同目录下，相同目录覆盖传输）

sudo xsync /bin/xsync

集群配置

集群部署规划

服务	cdh01	cdh02	cdh03
HDFS	NameNode、DataNode	DataNode	SecondaryNameNode、DataNode
YARN	NodeManager	ResourceManager、NodeManager	NodeManager

核心配置文件core-site.xml

cd $HADOOP_HOME/etc/hadoop
vim core-site.xml

配置内容

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://cdh01:8020</value>
    </property>
    <property>
        <name>hadoop.data.dir</name>
        <value>/opt/module/hadoop-3.1.3/data</value>
    </property>
    <property>
        <name>hadoop.proxyuser.hsy.hosts</name>
        <value>*</value>
    </property>
    <property>
        <name>hadoop.proxyuser.hsy.groups</name>
        <value>*</value>
    </property>
</configuration>

HDFS配置文件

cd $HADOOP_HOME/etc/hadoop
vim hdfs-site.xml

配置内容

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration>
  <property>
    <name>dfs.namenode.name.dir</name>
    <value>file://${hadoop.data.dir}/name</value>
  </property>
  <property>
    <name>dfs.datanode.data.dir</name>
    <value>file://${hadoop.data.dir}/data</value>
  </property>
    <property>
    <name>dfs.namenode.checkpoint.dir</name>
    <value>file://${hadoop.data.dir}/namesecondary</value>
  </property>
    <property>
    <name>dfs.client.datanode-restart.timeout</name>
    <value>30</value>
  </property>
  <property>
    <name>dfs.namenode.secondary.http-address</name>
    <value>cdh03:9868</value>
  </property>

  <property>
    <name>dfs.namenode.http-address</name>
    <value>cdh01:50070</value> 
  </property>

</configuration>

YARN配置文件

cd $HADOOP_HOME/etc/hadoop
vim yarn-site.xml

配置内容

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>cdh02</value>
    </property>
    <property>
        <name>yarn.nodemanager.env-whitelist</name>
        <value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value>
    </property>
</configuration>

MapReduce配置文件

vim mapred-site.xml

配置内容

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration>
  <property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
  </property>
</configuration>

在集群上分发配置好的Hadoop配置文件

xsync /opt/module/hadoop-3.1.3/etc/hadoop/

集群单点启动

如果集群是第一次启动，需要格式化NameNode（cdh01执行）

hdfs namenode -format

在cdh01上启动NameNode

hdfs --daemon start namenode

完成后执行jps命令，查看进程

在cdh01、cdh02、cdh03上执行如下命令（三台都要执行）

hdfs --daemon start datanode

群起集群

配置workers

vim /opt/module/hadoop-3.1.3/etc/hadoop/workers

cdh01
cdh02
cdh03

同步所有节点配置文件

xsync /opt/module/hadoop-3.1.3/etc

启动集群

如果集群是第一次启动，需要在cdh01节点格式化NameNode（注意格式化之前，一定要先停止上次启动的所有namenode和datanode进程，然后再删除data和log数据）：hdfs namenode -format
删除data和logs数据

cd /opt/module/hadoop-3.1.3
rm -rf data/*
rm -rf logs/*

cdh01启动HDFS

cd /opt/module/hadoop-3.1.3
sh sbin/start-dfs.sh

在配置了ResourceManager的节点（cdh02）启动YARN

cd /opt/module/hadoop-3.1.3
sh sbin/start-yarn.sh

Web端查看SecondaryNameNode

如果访问页面时，前端JS报错，导致页面显示不完整，参考解决方案：Hadoop查看Secondary Namenode Web端无信息的解决办法

http://cdh03:9868/

集群启动/停止方式总结

各个服务组件逐一启动/停止

nameNode启动

hdfs --daemon start namenode

nameNode停止

hdfs --daemon stop namenode

dataNode启动

hdfs --daemon start datanode

dataNode停止

hdfs --daemon stop datanode

secondaryNamenode启动

hdfs --daemon start secondarynamenode

secondaryNamenode停止

hdfs --daemon stop secondarynamenode

YARN-resourceManager启动停止

yarn --daemon start resourcemanager
yarn --daemon stop resourcemanager

YARN-nodeManager启动停止

yarn --daemon start nodemanager
yarn --daemon stop nodemanager

HDFS集群启动/停止（配置ssh是前提）cdh01执行

cd /opt/module/hadoop-3.1.3
sh sbin/start-dfs.sh
sh sbin/stop-dfs.sh

YARN集群启动/停止（配置ssh是前提）cdh02执行

cd /opt/module/hadoop-3.1.3
sh sbin/start-yarn.sh
sh sbin/stop-yarn.sh

配置历史服务器

为了查看程序的历史运行情况，需要配置一下历史服务器。具体配置步骤如下

配置mapred-site.xml

vi mapred-site.xml
在该文件里面增加如下配置

<!-- 历史服务器端地址 -->
<property>
    <name>mapreduce.jobhistory.address</name>
    <value>cdh01:10020</value>
</property>

<!-- 历史服务器web端地址 -->
<property>
    <name>mapreduce.jobhistory.webapp.address</name>
    <value>cdh01:19888</value>
</property>

分发配置

xsync $HADOOP_HOME/etc/hadoop/mapred-site.xml

启动停止历史服务器 cdh01执行

mapred –daemon start historyserver
mapred –daemon stop historyserver

查看JobHistory

http://cdh01:19888/jobhistory

配置日志的聚集

日志聚集概念：应用运行完成以后，将程序运行日志信息上传到HDFS系统上。
日志聚集功能好处：可以方便的查看到程序运行详情，方便开发调试。
注意：开启日志聚集功能，需要重新启动NodeManager 、ResourceManager和HistoryManager。

开启日志聚集功能具体步骤如下

配置yarn-site.xml

vim yarn-site.xml
在该文件里面增加如下配置。

    <property>
        <name>yarn.log-aggregation-enable</name>
        <value>true</value>
    </property>
    <property>  
        <name>yarn.log.server.url</name>  
        <value>http://hadoop102:19888/jobhistory/logs</value>  
    </property>
    <property>
        <name>yarn.log-aggregation.retain-seconds</name>
        <value>604800</value>
</property>

分发配置

xsync $HADOOP_HOME/etc/hadoop/yarn-site.xml

关闭NodeManager 、ResourceManager和HistoryServer 在cdh02上执行

cd /opt/module/hadoop-3.1.3
sh sbin/stop-yarn.sh

停止HistoryServer 在cdh01上执行

mapred --daemon stop historyserver

启动NodeManager 、ResourceManager和HistoryServer

在cdh02启动yarn

cd /opt/module/hadoop-3.1.3
sh sbin/start-yarn.sh

在cdh01启动historyserver

mapred --daemon start historyserver

hdfs界面设置操作文件

在Hadoop的配置文件core-site.xml中增加如下配置

<property>
  <name>hadoop.http.staticuser.user</name>
  <value>hsy</value>
</property>

<property>
  <name>dfs.permissions.enabled</name>
  <value>false</value>
</property>

黄开A

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
Hadoop基础环境搭建完整版

Hadoop基础环境搭建(TODO)个人学习记录说明个人学习记录基于虚拟机搭建，需要提前准备虚拟机环境搭建版本：hadoop-3.1.3搭建HDFS和yarn提前准备Hadoop安装包：hadoop-3.1.3.tar.gzHadoop下载地址：https://archive.apache.org/dist/hadoop/common/hadoop-3.1.3/提前准备JDK安装包：jdk-8u212-linux-x64.tar.gz环境准备准备3台虚拟机，最低要求：内存4G，硬盘
复制链接

扫一扫

专栏目录