HADOOP系统安装

瑞雪兆丰年（润）

已于 2022-09-22 07:38:00 修改

阅读量330

点赞数 2

文章标签： java linux 开发语言

于 2022-09-21 21:53:53 首次发布

本文链接：https://blog.csdn.net/qq_63756815/article/details/126981412

版权

目录:

总结：

一、实验（实训）目的

1、完成HADOOP平台安装，完成配置文件的修改，并成功启动HDFS、YARN等进程；

二、实验（实训）原理或方法

1、完成版本的上传，额外要求对本次课程所需要的所有文件进行目录归类；

2、完成HADOOP平台的安装；

3、完成 hadoop-env.sh 、 yarn-env.sh、 mapred-env.sh、 core-site.xml、 hdfs-site.xml、 yarn-site.xml、 mapred-site.xml、slaves等文件的配置；

4、完成关闭防火墙、格式化文件系统、启动和验证Hadoop、关闭Hadoop。

三、仪器设备、材料

1、计算机；

2、HADOOP版本等；

四、实验（实训）步骤

1、完成HADOOP平台安装和环境配置；

2、完成HADOOP文件系统格式，启动和验证Hadoop、关闭Hadoop。

3、作业：描述hdfs元数据的更新机制和做备份的过程及原因。

五、实训记录及结果

3、完成 hadoop-env.sh 、 yarn-env.sh、 mapred-env.sh、 core-site.xml、 hdfs-site.xml、 yarn-site.xml、 mapred-site.xml、slaves等文件的配置

图1. hadoop-env.sh

图2.yarn-env.sh

图3. mapred-env.sh

图4. core-site.xml

图5. hdfs-site.xml

图6.yarn-site.xml

图7.mapred-site.xml

图8.slaves

图9.关闭防火墙

图10.格式化

图11.启动

图.12 web 19888

图.13 web 8088

　3、作业：描述hdfs元数据的更新机制和做备份的过程及原因。

　HDFS元数据，按类型分，主要包括以下几个部分：

　　　　1、文件、目录自身的属性信息，例如文件名，目录名，修改信息等。

　　　　2、文件记录的信息的存储相关的信息，例如存储块信息，分块情况，副本个数等。

　　　　3、记录 HDFS 的 Datanode 的信息，用于 DataNode 的管理。

六、实训心得及体会(总结)

花费了许久时间，删除安装，创建又创建，终于做好了，但有些地方还不懂，照着书本敲，感觉有点生搬硬套。总得来说，旅途遥远，还需努力。

一、克隆虚拟机

注意：克隆时，要先关闭hadoop1

1. 修改克隆虚拟机的静态IP

vim /etc/sysconfig/network-scripts/ifcfg-ens33

2. 修改主机名称

vim /etc/hostname

3. 配置Linux克隆机主机名称映射hosts文件

vim /etc/hosts

4. 重启克隆机

reboot

二、安装JDK

注意：安装JDK前，一定确保提前删除了虚拟机自带的JDK

[通过“java -version”命令查看是否已安装java，再使用“rpm -qa|grep jdk”命令查询jdk软件，最后在root用户下，分别使用“yum -y remove java-1.8.0*”和“yum -y remove java-1.7.0*”卸载openjdk1.8和openjdk1.7‘]

1. 使用CRT上传jdk压缩包,“rz”上传，“ls”查看

2. 解压jdk到/zhy/java目录下

tar -zxvf /home/zhy/java/jdk-8u212-linux-x64.tar.gz -C /home/zhy/java

3. 配置JDK环境变量

新建my_env.sh文件：

vim /etc/profile.d/my_env.sh

添加内容：

#JAVA_HOME

export JAVA_HOME=/home/zhy/java/jdk1.8.0_212

export PATH=$PATH:$JAVA_HOME/bin

4. 环境变量生效

source /etc/profile

5. 测试JDK是否安装成功

“java”或“java -version”

如果未成功，则重启，reboot

6. 分发jdk

scp -r /home/zhy/java/jdk1.8.0_212/ zhy@hadoop2:/home/zhy/java/

scp -r /home/zhy/java/jdk1.8.0_212/ zhy@hadoop3:/home/zhy/java/

三、Hadoop安装

1. 使用CRT上传Hadoop压缩包,“rz”上传，“ls”查看

2. 解压安装文件到 /opt/module下

tar -zxvf /opt/module/hadoop-3.1.3.tar.gz

3.将Hadoop添加到环境变量

打开/etc/profile.d/my_env.sh文件:

vim /etc/profile.d/my_env.sh

在my_env.sh文件末尾添加内容：

#HADOOP_HOME

export HADOOP_HOME=/home/zhy/hadoop-3.1.3

export PATH=$PATH:$HADOOP_HOME/bin

export PATH=$PATH:$HADOOP_HOME/sbin

4.文件生效

source /etc/profile

5.测试是否安装成功

“Hadoop”或“hadoop version”

如未成功，重启，reboot

6.分发Hadoop

scp -r /opt/module/hadoop-3.1.3/ ydr@hadoop2:/opt/module

scp -r /opt/module/hadoop-3.1.3/ ydr@hadoop3:/opt/nodule

四、本地运行模式（官方WordCount）

1.在hadoop-3.1.3文件下面创建一个wcinput文件夹

mkdir wcinput

2.在wcinput文件下创建一个word.txt文件

cd wcinput

3.编辑word.txt文件

vim word.txt

4.回到hadoop-3.1.3目录,执行程序

bin/Hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount wcinput/ ./wcoutput

5.查看结果

cat wcoutput/part-r-00000

五、xsync集群分发脚本

1.期望脚本在任何路径都能使用（脚本放在声明了全局环境变量的路径）

echo $PATH

2.在/home/ydr/bin目录下创建xsync文件

“cd /home/ydr”，“mkdir bin”，“cd bin”，“vim xsync”

在文件中编写代码：

#!/bin/bash



#1. 判断参数个数

if [ $# -lt 1 ]

then

    echo Not Enough Arguement!

    exit;

fi



#2. 遍历集群所有机器

for host in hadoop1 hadoop2 hadoop3

do

    echo ====================  $host  ====================

    #3. 遍历所有目录，挨个发送



    for file in $@

    do

        #4. 判断文件是否存在

        if [ -e $file ]

            then

                #5. 获取父目录

                pdir=$(cd -P $(dirname $file); pwd)



                #6. 获取当前文件的名称

                fname=$(basename $file)

                ssh $host "mkdir -p $pdir"

                rsync -av $pdir/$fname $host:$pdir

            else

                echo $file does not exists!

        fi

    done

done

3.修改脚本 xsync 具有执行权限

“chmod 777 xsync”或“chmod +x xsync”

4.测试脚本

xsync bin

5.同步环境变量配置（root下）

xsync /etc/profile.d/my_env.sh

6.环境变量生效

在hadoop2和hadoop3上，

source /etc/profile