Hadoop环境搭建

最新推荐文章于 2023-12-30 18:55:54 发布

LMO_august

最新推荐文章于 2023-12-30 18:55:54 发布

阅读量158

点赞数

分类专栏： ubuntu Hadoop Spark 文章标签： hadoop spark hdfs mapreduce

本文链接：https://blog.csdn.net/LMO_august/article/details/118539678

版权

ubuntu 同时被 3 个专栏收录

3 篇文章 0 订阅

订阅专栏

Hadoop

2 篇文章 0 订阅

订阅专栏

Spark

2 篇文章 0 订阅

订阅专栏

Hadoop环境搭建

提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档

前言

提示：这里可以添加本文要记录的大概内容：

提示：以下是本篇文章正文内容，下面案例可供参考

一、新建虚拟机

在VMware中新建虚拟机的步骤如下：
在VMware中，单击菜单栏的【文件】，然后选择【新建虚拟机】，在弹出的新建虚拟机向导窗口中，选择【典型】，然后单击【下一步】。如下图所示。
在这里插入图片描述
在新弹出的窗口中选择【稍后安装操作系统】，然后单击【下一步】。

在新窗口的【客户机操作系统】选项中选择【Linux(L)】，然后下拉框内选择【Ubuntu 64 位】，然后单击【下一步】。

在新窗口中，【虚拟机名称】默认为“Ubuntu 64位”，也可以改成自己的名称，此处改为“Ubuntu_0707”。【位置】可以修改成虚拟机在硬盘中的位置，然后单击【下一步】。

在新窗口中，【最大磁盘大小】默认为20G，可以根据需要进行调整，这里保持默认。选择【将虚拟磁盘拆分成多个文件】选项，单击【下一步】。如下图所示。

在这里插入图片描述
新窗口中显示出了当前虚拟机的配置信息，如果需要对配置（内存、硬盘等）进行调整，单击【自定义硬件】按钮进行调整即可。这里直接单击【完成】按钮，便生成了如下图所示的虚拟机。

在这里插入图片描述
配置完成后，在新建的虚拟机主窗口中，单击【编辑虚拟机设置】按钮，在弹出的【虚拟机设置】窗口中，选择【CD/DVD】，然后单击右侧【使用ISO镜像文件】选项，并单击其下方的【浏览】按钮，在浏览文件窗口中选择之前下载的Ubuntu镜像文件，然后单击【确定】按钮。
在这里插入图片描述

二、安装操作系统

打开新建的虚拟机，选择系统语言-English后选择操作-Install Ubuntu Server
在这里插入图片描述
选择安装过程和系统的默认语言-English

选择区域-other-Asia-China

选择字符集编码-United States

是否扫描和配置键盘，选择否-No
在这里插入图片描述
选择键盘类型-English (US)

选择键盘布局-English (US)

设置主机名称(自行设置，这里我设置为“Lulu”)-Continue

设置用户全名(这里为“Lulu”)-Continue

设置登录账号(这里为“Lulu”)-Continue；

设置登录密码(空格选择“Show Password in Clear”可以显示密码)-Continue
![密码123456](https://img-blog.csdnimg.cn/2021070709501850.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0xNT19hdWd1c3Q=,size_16,color_FFFFFF,t_70
重复上一步设置的登录密码-Continue
在这里插入图片描述
是否加密home文件夹，选择否-No

确认时区是否正确(这里是“Asia/Shanghai”正确)，选择是-Yes

选择分区方式(分区向导-使用整个磁盘)-“Guided - use entire disk”

选择要分区的磁盘(这里只有一块)-“SCSI3 ···”是否将变更写入磁盘，选择是-Yes
在这里插入图片描述
设置HTTP代理，无需填写直接下一步-Continue
设置系统升级方式，选择自动升级-Install security updates automatically

选择要安装的软件，多加一个OpenSSH Server（按空格选中），然后下一步-Continue
在这里插入图片描述
是否安装GRUB引导程序，选择是-Yes

完成安装，选择下一步-Continue
在这里插入图片描述

系统安装完会自动启动主机，然后输入设置好的登录账户和密码就可以开始使用了
在这里插入图片描述

三、修改root密码

Ubuntu的默认root密码是随机的，即每次开机都有一个新的root密码。我们可以在终端输入命令 sudo passwd，然后输入当前用户的密码，enter。
终端会提示我们输入新的密码并确认，此时的密码就是root新密码。修改成功后，输入命令 su root，再输入新的密码就可以了。（为了方便统一：我均设置成123456789）
在这里插入图片描述

四、环境配置

1.关闭防火墙

【操作目的】
集群一般都是内网搭建的，如果内网内开启防火墙，内网集群通讯会容易出现很多问题。因此需要关闭集群中每个节点的防火墙。
【操作步骤】
执行以下命令进行关闭防火墙：

sudo  ufw  disable

然后执行以下命令，禁止防火墙开机启动：

sudo  ufw  default  deny

其它相关命令如下：
查看防火墙状态：

sudo ufw status

在这里插入图片描述

2.设置固定IP

【操作目的】
为了避免后续启动操作系统后，IP地址改变了，导致本地SSH连接不上，节点间无法访问，需要将操作系统设置为固定IP。
【操作步骤】

修改/查看子网IP
在VMWare中单击菜单栏的【编辑】/【虚拟网络编辑器】，弹出以下界面，然后选中VMnet8 NAT模式，并修改子网IP，节点的IP地址必须与子网IP的网段一致。

第一步：先获取网卡名称，输入ifconfig,如下图，我们的网卡名称为 ens33
第二步：修改网卡配置文件sudo vim /etc/network/interfaces

sudo  vim /etc/network/interfaces

添加以下内容：

auto ens33
iface ens33 inet static
address 192.168.192.135   （IP地址写自己号段内的，此处我的是192）
netmask 255.255.255.0
gateway 192.168.192.135
dns-nameserver 8.8.8.8

在这里插入图片描述
第三步：修改DNS配置

第四步：重启网络服务

sudo /etc/init.d/networking restart

解决Ubuntu的root账号无法登录SSH问题-Permission denied, please try again.
https://blog.csdn.net/qq_36864672/article/details/78221840

注：如果没有vim需要输入sudo apt-get install vim进行下载安装
Linux下解决网卡重启失败Restarting network (via systemctl): Job for network.service failed

https://blog.csdn.net/qq_36168479/article/details/102546511

第五步：连接FinalShell
FinalShell是一个远程连接的工具，需要提前下载，下载后新建连接输入先前查看的ip地址、用户名、密码即可使用。
在这里插入图片描述
找到opt文件夹，在其下新建三个文件夹分别是data、modules、softwares

通过使用FinalShell来进行传输jdk，然后解压到对应位置，完成环境变量配置，修改/etc/profile配置并立刻更新。

输入java -version 查看java是否配置成功，如下图是配置成功的图例，显示出java版本
在这里插入图片描述

3.修改主机名

【操作目的】
在分布式集群中，主机名用于区分不同的节点，并方便节点之间相互访问，因此需要修改主机的主机名。
【操作步骤】
执行以下命令，修改hostname文件，将其中的主机名改为ubuntu01：
vi /etc/hostname
重启系统使修改生效。
注意：修改主机名需要重启才能生效。

修改前修改后
重启后
在这里插入图片描述

4. 配置主机IP映射

使用ifconfig命令查看虚拟机的IP，192.168.192.135
在这里插入图片描述执行以下命令，修改hosts文件：

sudo vim /etc/hosts

在hosts文件中加入以下内容：

192.168.192.135	ubuntu01

在这里插入图片描述

配置完后，使用ping命令检查是否配置成功，如下：

ping ubuntu01

在这里插入图片描述

最后，配置一下本地Windows系统的主机IP映射，方便本地通过主机名直接访问虚拟机。进入Windows操作系统的目录C:\Windows\System32\drivers\etc编辑hosts文件，加入以下内容：
192.168.192.135 ubuntu01
在这里插入图片描述

五、Hadoop 2.x伪分布式集群搭建

1.配置节点SSH无密钥登录

在节点中执行以下命令，生成秘钥文件：
在这里插入图片描述在节点中执行以下命令，将公钥信息拷贝并追加到对方节点的授权文件authorized_keys中：

在这里插入图片描述

2. 搭建Hadoop集群

在这里插入图片描述
修改配置文件：
Hadoop所有的配置文件都存在于安装目录下的/opt/modules/Hadoop-2.6.0/etc/hadoop中，修改如下配置文件：
hadoop-env.sh
mapred-env.sh
yarn-env.sh
三个文件分别加入JAVA_HOME环境变量，如下：
export JAVA_HOME=/opt/modules/jdk1.8.0_162

在这里插入图片描述
注意不要改成上图的情况，一定要删掉export JAVA_HOME=${JAVA_HOME}

（1）修改配置文件core-site.xml，加入以下内容：

<configuration>
   <property>
	 <name>fs.defaultFS</name>
	 <value>hdfs://ubuntu01:9000</value>
   </property>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>file:/opt/modules/hadoop-2.6.0/tmp</value>
     </property>
</configuration>

参数解析：
fs.defaultFS：HDFS的默认访问路径。
hadoop.tmp.dir：Hadoop临时文件的存放目录，可自定义。
（2）修改配置文件hdfs-site.xml，加入以下内容：

<configuration>
   <property>
	  <name>dfs.replication</name>
	  <value>1</value>
	</property>
    <property><!--不检查用户权限-->
	  <name>dfs.permissions.enabled</name>
	  <value>false</value>
	</property>
	<property>
	  <name>dfs.namenode.name.dir</name>
	  <value>file:/opt/modules/hadoop-2.6.0/tmp/dfs/name</value>
	</property>
	<property>
	  <name>dfs.datanode.data.dir</name>
	  <value>file:/opt/modules/hadoop-2.6.0/tmp/dfs/data</value>
	</property>
</configuration>

参数解析：
dfs.replication：文件在HDFS系统中的副本数。
dfs.namenode.name.dir：HDFS名称节点数据在本地文件系统的存放位置。
dfs.datanode.data.dir：HDFS数据节点数据在本地文件系统的存放位置。
（3）修改slaves文件，配置DataNode节点。slaves文件原本无任何内容，需要将所有DataNode节点的主机名都添加进去，每个主机名占一整行。本例中，DataNode为一个节点：
ubuntu01
在这里插入图片描述
注意不要改成上图的情况，删掉localhost

3.配置YARN

在这里插入图片描述
（1）重命名mapred-site.xml.template文件为mapred-site.xml，修改mapred-site.xml文件，添加以下内容，指定以yarn集群方式运行。

<configuration>  
    <property>  
       <name>mapreduce.framework.name</name>  
       <value>yarn</value> 
    </property> 
</configuration>

（2）修改yarn-site.xml文件，添加以下内容：

<configuration>  
    <property>  
       <name>yarn.nodemanager.aux-services</name>  
       <value>mapreduce_shuffle</value>  
</property>    
<property>
        <name>yarn.resourcemanager.hostname</name>
        <value>ubuntu01</value>
</property>
</configuration>

参数解析：
yarn.nodemanager.aux-services ：NodeManager上运行的附属服务。需配置成mapreduce_shuffle才可运行MapReduce程序。

4.配置Hadoop系统变量

为了能在任何目录下执行Hadoop命令，可以配置Hadoop系统变量。
修改文件/etc/profile，添加以下内容：
在这里插入图片描述

5. 启动Hadoop

启动Hadoop之前，需要先格式化NameNode。格式化NameNode可以初始化HDFS文件系统的一些目录和文件，在centos01节点上执行以下命令，进行格式化操作（只格式化一次）：

hadoop namenode -format

格式化成功后，在centos01节点上执行以下命令，启动Hadoop集群：

start-all.sh

在这里插入图片描述

问题解决方法：https://blog.csdn.net/qq_40414738/article/details/99544777

在这里插入图片描述
集群启动成功后，分别在各个节点上执行jps命令，查看启动的Java进程。可以看到，各节点的Java进程如下：
ubuntu01节点的进程：

6.测试HDFS

访问网址：http://192.168.192.135:50070 可以查看HDFS的NameNode信息，界面如下：
在这里插入图片描述

7. 测试MapReduce

在这里插入图片描述

总结

提示：这里对文章进行总结：
例如：以上就是今天要讲的内容

LMO_august

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hadoop环境搭建

系列文章目录提示：这里可以添加系列文章的所有文章的目录，目录需要自己手动添加例如：第一章 Python 机器学习入门之pandas的使用提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录系列文章目录前言一、新建虚拟机二、安装操作系统三、修改root密码四、环境配置1.关闭防火墙2.设置固定IP3.修改主机名4. 配置主机IP映射五、Hadoop 2.x伪分布式集群搭建1.配置节点SSH无密钥登录2. 搭建Hadoop集群3.配置YARN4.配置Hadoop系统变量5. 启动H
复制链接

扫一扫

专栏目录