hadoop入门（最小安装版本） day123复习

大概是犬青

已于 2022-07-23 14:36:38 修改

阅读量690

点赞数

分类专栏： Hadoop 文章标签： hadoop

于 2022-04-17 19:57:03 首次发布

本文链接：https://blog.csdn.net/kevinwen0228/article/details/124213662

版权

Hadoop 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

虚拟环境的搭建

硬件前提：安装了vm；有centos7镜像文件

1.配母机hadoop111

看图步骤：（对应的文字描述在图的上面）

硬件

在这里插入图片描述

在这里插入图片描述
然后，选择centos7，可能还可以选其他，但是我不太懂：

起名字和选择位置：

在这里插入图片描述
选择处理器有说法的：尚硅谷，我的电脑处理器是12；然后Hadoop学习至少需要三台服务器，加上windows一台总该四台；我个人而言： 12/4 = 3 最多分配三个。

此处看个人电脑配置，我内核总数最多分配三个

在这里插入图片描述
内存

在这里插入图片描述

50G学习差不多，虽然是五十G，但是实际学习的时候用不到那么多不用担心。
在这里插入图片描述

放在刚刚的文件那里，方便管理

在这里插入图片描述

接下来选择centos7 选择自定义硬件

在这里插入图片描述
按图处理

软件

硬件选择好后，正式进入软件安装：
随便直接回车：
在这里插入图片描述

等待片刻，跳出语言选择：
在这里插入图片描述
加载片刻，本地化三个可以不用设置 （其中日期和时间后面设置网络和主机名称的时开启网络会跟windows同步时间的）

软件：安装源不用动，软件选择（学习可以选择界面话，但是既然都是要学到高级的，不如最小安装挑战自己！节省笔记本电脑资源提高自己）
在这里插入图片描述

接下来磁盘：当然要自己配置分区
在这里插入图片描述

点击完成后进入手动分区的界面了，然后点击 + 号，开始手动

在这里插入图片描述

接下里，网络和主机名称
在这里插入图片描述
接下来开始安装咯、等待安装结束了，再进行用户设置，不然卡死了

然后重启之后用root登录
安装epel-release：
[root@hadoop100 ~]# yum install -y epel-release

另外，最小安装需要安装：
1.[root@hadoop100 ~]# yum install -y net-tools
2.[root@hadoop100 ~]# yum install -y vim
3.[wts@hadoop112 ~]$ sudo yum -y install rsync （下载rsync）

配置主机名、静态IP、映射

在这里插入图片描述

1）配置VM和windows的IP
VM：
在这里插入图片描述
window：

2）设置hadoop111的主机和静态IP

主机：
查看主机名：hostname
修改主机名：vim /etc/hostname
静态IP的修改：
修改：vim /etc/sysconfig/network-scripts/ifcfg-ens33

在这里插入图片描述

hadoop111映射
命令：vim /etc/hosts

在这里插入图片描述
重启验证一下ifconfig 可以发现是固定的IP了

配置window本地映射

有手就行

配置普通用户有root权限

[root@hadoop100 ~]# vim /etc/sudoers

修改/etc/sudoers文件，在%wheel这行下面添加一行，如下所示：

##Allow root to run any commands anywhere

root ALL=(ALL) ALL

##Allows people in group wheel to run all commands

%wheel ALL=(ALL) ALL
atguigu ALL=(ALL) NOPASSWD:ALL

2.虚拟机克隆

克隆出hadoop112、hadoop113、hadoop114

克隆出来后修改hadoop的主机名称和静态ip地址

有手就行

重启

3.jdk和hadoop安装和配置

/opt 下创 module 和 software 两个文件夹
然后改所有者和所在组

在这里插入图片描述
xftp传到software
然后解压到module中：（*我这里解压的时候jdk的所有者所在组我改成了wts，不知道有没有影响）

在这里插入图片描述

配环境咯（尚硅谷版）

[atguigu@hadoop102 ~]$ sudo vim /etc/profile.d/my_env.sh

#JAVA_HOME
export JAVA_HOME=/opt/module/jdk180
export PATH=$PATH:$JAVA_HOME/bin

#HADOOP_HOME
export HADOOP_HOME=/opt/module/hadoop313
export PATH= $ PATH :$HADOOP_HOME/bin
export PATH= $ PATH : $  HADOOP_HOME/sbin

2）[atguigu@hadoop102 ~]$ source /etc/profile

3）测试
[wts@hadoop102 /]$ java -version
[wts@hadoop102 /]$ hadoop version

在这里插入图片描述

4.三个脚本

把module文件分发给每台机器，我用的scp（日后看看能不能xsync）

xsync分发脚本
最小安装没有下载rsync！每台机器上先下载rsync：
[wts@hadoop112 ~]$ sudo yum -y install rsync

1）在~目录下创建bin目录里面写脚本
在这里插入图片描述

脚本内容：

#!/bin/bash
#1. 判断参数个数
if [ $# -lt 1 ]
then
    echo Not Enough Arguement!
    exit;
fi
#2. 遍历集群所有机器
for host in hadoop112 hadoop113 hadoop114
do
    echo ====================  $host  ====================
    #3. 遍历所有目录，挨个发送

    for file in $@
    do
        #4. 判断文件是否存在
        if [ -e $file ]
            then
                #5. 获取父目录
                pdir=$(cd -P $(dirname $file); pwd)

                #6. 获取当前文件的名称
                fname=$(basename $file)
                ssh $host "mkdir -p $pdir"
                rsync -av $pdir/$fname $host:$pdir
            else
                echo $file does not exists!
        fi
    done
done

修改脚本权限777

2）把bin/目录（以便全局调用xsync）、配置的jdk和hadoop的环境变量文件分发到每个集群：
这里遇到点小问题：
第一，用wts分发/etc/profile.d/my_env.sh文件，从112发到113和114不成功
在这里插入图片描述
网上找了点资料，说是my_env.sh文件时root的，需要用root分发操作。

在这里插入图片描述

切换成root用户确实完成了分发操作。
wts下用sudo调用xsync 要写全所有路径

第二，分发操作我在hadoop102 103 104系列机上分发时不需要密码的
这里待考察（是不是应为配置了ssh无密操作呢？确实！）

3）在每个机子上source一下/etc/profile 验证jdk和hadoop环境是否成功

jpsall脚本

 #!/bin/bash
 
 for host in hadoop112 hadoop113 hadoop114
 do
         echo =============== $host ===============
         ssh $host jps 
 done

chmod 777

一键开关机脚本

 #!/bin/bash
 
 if [ $# -lt 1 ]
 then
     echo "No Args Input..."
     exit ;
 fi
 
 case $1 in
 "start")
         echo " =================== 启动 hadoop集群 ==================="
 
         echo " --------------- 启动 hdfs ---------------"
         ssh hadoop112 "/opt/module/hadoop313/sbin/start-dfs.sh"
         echo " --------------- 启动 yarn ---------------"
         ssh hadoop113 "/opt/module/hadoop313/sbin/start-yarn.sh"
         echo " --------------- 启动 historyserver ---------------"
         ssh hadoop112 "/opt/module/hadoop313/bin/mapred --daemon start historyserver"
 ;;
 "stop")
         echo " =================== 关闭 hadoop集群 ==================="
 
         echo " --------------- 关闭 historyserver ---------------"
         ssh hadoop112 "/opt/module/hadoop313/bin/mapred --daemon stop historyserver"
         echo " --------------- 关闭 yarn ---------------"
         ssh hadoop113 "/opt/module/hadoop313/sbin/stop-yarn.sh"
         echo " --------------- 关闭 hdfs ---------------"
         ssh hadoop112 "/opt/module/hadoop313/sbin/stop-dfs.sh"
 ;;
 *)
     echo "Input Args Error..."
 ;;
 esac

chmod777

5.ssh免密登录

三个机子上相同重复操作
1）[atguigu@hadoop102 .ssh]$ ssh-keygen -t rsa
然后敲（三个回车），就会生成两个文件id_rsa（私钥）、id_rsa.pub（公钥）

2）拷贝公钥到要免密登录的机器上
[atguigu@hadoop102 .ssh]$ ssh-copy-id hadoop112
[atguigu@hadoop102 .ssh]$ ssh-copy-id hadoop113
[atguigu@hadoop102 .ssh]$ ssh-copy-id hadoop114

ok了

6.集群配置

在这里插入图片描述

1）配置core-site.xml
/opt/module/hadoop313/etc/hadoop/下
[wts@hadoop113 hadoop]$ vim core-site.xml

<configuration>
   <!-- 指定NameNode的地址 -->
   <property>
       <name>fs.defaultFS</name>
       <value>hdfs://hadoop112:8020</value>
   </property>

   <!-- 指定hadoop数据的存储目录 -->
   <property>
       <name>hadoop.tmp.dir</name>
       <value>/opt/module/hadoop313/data</value>
   </property>

   <!-- 配置HDFS网页登录使用的静态用户为wts -->
   <property>
       <name>hadoop.http.staticuser.user</name>
       <value>wts</value>
   </property>
</configuration>

2）配置hdfs-site.xml
[wts@hadoop113 hadoop]$ vim hdfs-site.xml

<configuration>
  	<!-- nn web端访问地址-->
	<property>
	    <name>dfs.namenode.http-address</name>
	    <value>hadoop112:9870</value>
	</property>
	<!-- 2nn web端访问地址-->
	<property>
	    <name>dfs.namenode.secondary.http-address</name>
	    <value>hadoop114:9868</value>
	</property>
</configuration>

3）配置yarn-site.xml
[wts@hadoop112 hadoop]$ vim yarn-site.xml

<configuration>

	<!-- Site specific YARN configuration properties -->
	<!-- 指定MR走shuffle -->
	<property>
	<name>yarn.nodemanager.aux-services</name>
	<value>mapreduce_shuffle</value>
	</property>

	<!-- 指定ResourceManager的地址-->
	<property>
	<name>yarn.resourcemanager.hostname</name>
	<value>hadoop113</value>
	</property>

	<!-- 环境变量的继承 -->
	<property>
	<name>yarn.nodemanager.env-whitelist</name>
	<value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value>
	</property>

	<!-- 开启日志聚集功能 -->
	<property>
	    <name>yarn.log-aggregation-enable</name>
	    <value>true</value>
	</property>
	<!-- 设置日志聚集服务器地址 -->
	<property>  
	    <name>yarn.log.server.url</name>  
	    <value>http://hadoop112:19888/jobhistory/logs</value>
	</property>
	<!-- 设置日志保留时间为7天 -->
	<property>
	    <name>yarn.log-aggregation.retain-seconds</name>
	    <value>604800</value>
	</property>
</configuration>

4）配置mapred-site.xml
[wts@hadoop112 hadoop]$ vim mapred-site.xml

<configuration>
	<!-- 指定MapReduce程序运行在Yarn上 -->
	<property>
	    <name>mapreduce.framework.name</name>
	    <value>yarn</value>
	</property>
	<!-- 历史服务器端地址 -->
	<property>
	    <name>mapreduce.jobhistory.address</name>
	    <value>hadoop112:10020</value>
	</property>

	<!-- 历史服务器web端地址 -->
	<property>
	    <name>mapreduce.jobhistory.webapp.address</name>
	    <value>hadoop112:19888</value>
	</property>
</configuration>

5）分发
xsync /opt/module/hadoop-3.1.3/etc/hadoop/

7.群起集群

1）配置workers
[atguigu@hadoop102 hadoop]$ vim /opt/module/hadoop-3.1.3/etc/hadoop/workers
在该文件中增加如下内容：
hadoop112
hadoop113
hadoop114
在这里插入图片描述

分发！！！！

2）启动集群
（1）如果集群是第一次启动，需要在hadoop102节点格式化NameNode：（格式化前，删除hadoop根目录下的data和logs文件夹）
[wts@hadoop112 hadoop313]$ hdfs namenode -format

（2）启动HDFS和YARN（注意yarn的启动位置）

关闭防火墙启动！！！

[wts@hadoop112 hadoop313]$ sbin/start-dfs.sh
[wts@hadoop113 hadoop313]$ sbin/start-yarn.sh

当然我是高手，我选择了.sh文件群体启动 ^ 0 ^

浏览器中输入：http://hadoop102:9870
浏览器中输入：http://hadoop103:8088

注意了！如果访问不了9870和8088的问题的个人解决方案！！

首先要关闭防火墙操作：这里我一开始是傻逼，关闭了windows的防火墙。其实，是要关闭Linux下每台机器的防火墙

[wts@hadoop112 hadoop]$ systemctl status firewalld
[wts@hadoop112 hadoop]$ sudo systemctl stop firewalld
[wts@hadoop112 hadoop]$ sudo systemctl disable firewalld.service（关闭开机自动启动防火墙）

在这里插入图片描述