打怪升级之小白的大数据之旅(四十二)＜Hadoop运行环境搭建＞

最新推荐文章于 2024-09-29 16:20:54 发布

GaryLea

最新推荐文章于 2024-09-29 16:20:54 发布

阅读量206

点赞数

文章标签：大数据 hadoop linux java

本文链接：https://blog.csdn.net/Li_G_yuan/article/details/116615324

版权

打怪升级之小白的大数据之旅(四十二)

Hadoop运行环境搭建

上次回顾

上一章，我们学习了大数据的相关概念以及Hadoop的基础介绍，本章节主要介绍Hadoop的环境搭建；配置的点比较多，当下一章Hadoop集群配置结束后，我专门将可能出错的地方做个总结，方便大家配合使用

Hadoop运行环境搭建

环境搭建前，我先列一个Hadoop的整体大纲，方便大家进行理解哈，本章节主要是对Hadoop运行环境搭建进行分享，下一章对Hadoop运行模式搭建进行分享，它们的区别就是，运行环境搭建只是一台的服务器，而下一章是对整个集群进行搭建
另外注意一下，在本章结束后，小伙伴可能会问，三台服务器为什么现在就克隆，为什么不等到整个运行环境搭建完成再克隆？这是为了后面集群的分发做铺垫的哈，所以跟着我的步骤操作就好了

环境搭建步骤

配置虚拟环境
- 克隆虚拟机
- 修改静态IP
- 安装必要插件
- 修改hostname
- 修改hosts
- 关闭防火墙
- 创建Hadoop的统一用户
- 在opt/目录下创建专门存放jdk与hadoop的目录
安装JDK与Hadoop
- 安装jdk
- 配置jdk的环境变量
- 安装hadoop
- 配置hadoop的环境变量

Hadoop运行模式搭建

本地运行模式测试
完全分布式运行模式搭建
- 虚拟机准备
- 集群分发脚本
- SSH无密登录
- 集群配置
- 群起集群配置
- 集群的启动与停止
- 配置历史服务器
- 配置集群的时间同步

我来总结一下哈，hadoop运行环境搭建总体就两步，第一步是虚拟环境的搭建，第二步就是安装jdk与hadoop，每一步里面都有一些小的配置，知道了整体的步骤后，接下来让我们正式开始

配置虚拟环境

首先我们需要准备三台虚拟机，在介绍Linux时我有说过，让大家提前建立一台无界面的CentOS虚拟机，现在派上用场了，忘了的详见Linux基础知识CentOS安装第十五步，另外，建议单台虚拟机的配置为：内存4G，硬盘50G，安装CentOS7无界面操作系统

第一步：
创建好虚拟机后，接下来我们进行克隆->完整克隆，然后保存在我前面提到的专用虚拟机文件夹中,建议大家跟我配置一样哈，虚拟机名称分别为hadoop102,hadoop103,hadoop104
在这里插入图片描述

第二步：修改静态IP，这块详见我们在Linux基础中学习到的网络配置，我就直接上虚拟机的配置了，注意啦，我们刚开始的虚拟机是没有vim的,我先对hdaoop102虚拟机进行配置

打开hadoop102虚拟机并进入ip的配置文件
查看Linux虚拟机的虚拟网络编辑器，编辑->虚拟网络编辑器->VMnet8
查看Windows系统适配器VMware Network Adapter VMnet8的IP地址
保证Linux文件中IP地址、Linux虚拟网络编辑器地址和Windows系统VM8网络IP地址相同

# 打开hadoop102虚拟机并进入ip的配置文件
vi /etc/sysconfig/network-scripts/ifcfg-ens33
# 修改hadoop102的ip
ONBOOT=yes
BOOTPROTO=static
IPADDR=192.168.1.102
GATEWAY=192.168.1.2
DNS1=114.114.114.114

第三步：安装必要插件，因为我上一步说了，此时是纯净版的系统，因此我们需要安装必要的插件，直接复制下面的命令就好

yum install -y epel-release
yum install -y psmisc nc net-tools rsync vim lrzsz ntp libzstd openssl-static tree iotop git

第四步：修改主机名

vim /etc/hostname
# 将里面的localhost这一行删除掉，然后根据我们虚拟机的名称进行配置
hadoop102

第五步：修改hosts文件,我们前面在网络配置时也讲过哈,它是主机名称的映射，等集群的时候就知道为什么要配置它了

# 进入主机名称映射的配置文件
sudo vim /etc/hosts
# 修改内容如下
192.168.1.100 hadoop100
192.168.1.101 hadoop101
192.168.1.102 hadoop102
192.168.1.103 hadoop103
192.168.1.104 hadoop104
192.168.1.105 hadoop105
192.168.1.106 hadoop106
192.168.1.107 hadoop107
192.168.1.108 hadoop108

第六步：修改windows中的hosts文件，当然了，除了我们的虚拟机，我们还要在Windows中配置，我们后面的hadoop都是使用xshell进行连接的

1.进入C:\Windows\System32\drivers\etc路径
2.打开hosts文件并添加如下内容
192.168.1.100 hadoop100
192.168.1.101 hadoop101
192.168.1.102 hadoop102
192.168.1.103 hadoop103
192.168.1.104 hadoop104
192.168.1.105 hadoop105
192.168.1.106 hadoop106
192.168.1.107 hadoop107
192.168.1.108 hadoop108
3. 如果发现我们无法修改保存，那就把整个hosts拖到复制或移动到桌面上再进行修改保存，然后再放回到原位即可

第七步：关闭防火墙，这一步是为了后面集群用的，集群就是很多的服务器，服务器之间要相互连接，所以我们不需要防火墙

# 关闭防火墙
systemctl stop firewalld
# 禁止防火墙开机启动
systemctl disable firewalld

第八步：创建hadoop集群共同的用户，这里的用户是我们以后操作的用户，不论后面什么操作都是它，以后就不会再用root了，因为它是超级管理员，如果误操作不太好…

# 创建用户
useradd hadoopuser
passwd 123456

第九步：配置hadoopuser用户具有root权限，这个知识点在Linux常用命令的用户管理中讲过哈,在91行下面，行号使用vim的:set nu

# 打开用户权限文件 
visudo
# 添加hadoopuser拥有root所有权限
root    ALL=(ALL)     ALL
hadoopuser ALL=(ALL)    NOPASSWD:ALL

第十步：在/opt下创建文件夹,用于存放安装jdk与hadoop，记得修改用户的所属主与所属组，因为我们以后的操作都是使用我们刚刚建立的那个用户,module用户安装jdk和Hadoop，software用于存放安装包

# 进入/opt文件夹下
cd /opt
# 创建文件
mkdir module
mkdir software
# 修改权限的所属主与所属组
chown hadoopuser:hadoopuser /opt/module /opt/software

最后一步：好了，我们将基础的虚拟环境配置好了，接下来重启一下我们的虚拟机，让前面的配置生效

reboot

安装JDK与Hadoop

第一步：下载jdk与hadoop的安装包

前面的虚拟环境配置完毕之后，我们开始进行jdk与Hadoop的安装
因为Hadoop是用Java写的，所以我们需要安装java的jdk，这也是我们为什么开篇就学习java的原因
jdk与hadoop的安装包可以私信我，也可以自行去官网下载，一定记得下载编译好的软件包，java的选择

hadoop的选择,Binary的编译好的
在这里插入图片描述

jdk的下载地址：https://www.java.com/zh-CN/download/manual.jsp
jdklinux的下载地址： https://javadl.oracle.com/webapps/download/AutoDL?BundleId=244575_d7fc238d0cbf4b0dac67be84580cfb4b
hadoop下载地址:https://hadoop.apache.org/releases.html

第二步：安装jdk与hadoop,我们下载的是编译好的，直接是无安装版，直接使用tar进行解压即可

首先我们使用xftp将安装包放到我们前面建立的/opt下的software文件夹中
接下来使用tar命令将jdk解压到module中，记得先解压jdk，然后再解压hadoop

tar -zxvf jdk-8u212-linux-x64.tar.gz -C /opt/module/

第三步：配置jJDK的环境变量，这里就和Windows中设置系统环境变量一样的，我们也在Linux中设置JDK的环境变量

首先我们要进入我们的环境变量配置文件夹下，然后自定义一个配置文件脚本，这样我们以后就可以很方便地管理我们自定义安装的软件了

# 进入环境变量配置文件夹
cd /etc/profile.d
# 新建一个环境变量配置文件
vim my_env.sh
# 配置JDK的环境变量为全局变量
#JAVA_HOME
export JAVA_HOME=/opt/module/jdk1.8.0_212
export PATH=$PATH:$JAVA_HOME/bin

第四步：保存退出后重新加载一下配置的文件,然后测试jdk是否安装成功

# 方法一，使用source进行重新加载配置
source my_env.sh
# 方法二，重启虚拟机，让系统自己重新加载配置
reboot

# 测试java命令是否成功的设置成全局环境变量
java -version

第五步：安装Hadoop，步骤和安装jdk一样

tar -zxvf hadoop-3.1.3.tar.gz -C /opt/module/

第六步：配置Hadoop的环境变量为全局变量,再次进入我们设置jdk的那个脚本

# 进入环境变量配置文件夹
cd /etc/profile.d
# 新建一个环境变量配置文件
vim my_env.sh
# 配置JDK的环境变量为全局变量
#JAVA_HOME
export JAVA_HOME=/opt/module/jdk1.8.0_212
export PATH=$PATH:$JAVA_HOME/bin
#HADOOP_HOME
export HADOOP_HOME=/opt/module/hadoop-3.1.3
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin

第七步：保存退出并测试,这里重复第四步的动作

# 重新加载我们的脚本
source my_env.sh
# 测试是否成功
hadoop version

成功的运行结果
在这里插入图片描述

Hadoop的目录结构

到此我们的Hadoop就安装完成了，接下来我来介绍一下Hadoop的目录结构，cd到我们module下的hadoop文件夹下可以看到它们目录结构如下：
在这里插入图片描述
咳咳，我习惯性的对我的用户信息进行马赛克，个人习惯哈，这个不是什么重要的东西…

目录结构详解

我因为测试了一下是否安装成功，因此就多了data,logs input ouput这些文件夹下，后面我会介绍它们的，不用担心，现在忽略它们

bin目录：存放对Hadoop相关服务（HDFS,YARN）进行操作的脚本
etc目录：Hadoop的配置文件目录，存放Hadoop的配置文件
lib目录：存放Hadoop的本地库（对数据进行压缩解压缩功能）
sbin目录：存放启动或停止Hadoop相关服务的脚本
share目录：存放Hadoop的依赖jar包、文档、和官方案例

总结

本章对Hadoop的单机环境配置进行了分享，Hadoop最重要的就是集群，多个服务器，因此我专门把它们拆开来讲哈。今天内容就到这里，如果整个过程有问题，欢迎随时后台私信我,
对了，配置虚拟环境的第二步到第五步，一定记得在hadoop103和hadoop104服务器上都改一下，我们下一章要用它们，还有第九步，我们在三个服务器上都要建立相同的账号和配合