Hadoop环境搭建
提示:写完文章后,目录可以自动生成,如何生成可参考右边的帮助文档
文章目录
前言
提示:这里可以添加本文要记录的大概内容:
提示:以下是本篇文章正文内容,下面案例可供参考
一、新建虚拟机
在VMware中新建虚拟机的步骤如下:
在VMware中,单击菜单栏的【文件】,然后选择【新建虚拟机】,在弹出的新建虚拟机向导窗口中,选择【典型】,然后单击【下一步】。如下图所示。
在新弹出的窗口中选择【稍后安装操作系统】,然后单击【下一步】。
在新窗口的【客户机操作系统】选项中选择【Linux(L)】,然后下拉框内选择【Ubuntu 64 位】,然后单击【下一步】。
在新窗口中,【虚拟机名称】默认为“Ubuntu 64位”,也可以改成自己的名称,此处改为“Ubuntu_0707”。【位置】可以修改成虚拟机在硬盘中的位置,然后单击【下一步】。
在新窗口中,【最大磁盘大小】默认为20G,可以根据需要进行调整,这里保持默认。选择【将虚拟磁盘拆分成多个文件】选项,单击【下一步】。如下图所示。
新窗口中显示出了当前虚拟机的配置信息,如果需要对配置(内存、硬盘等)进行调整,单击【自定义硬件】按钮进行调整即可。这里直接单击【完成】按钮,便生成了如下图所示的虚拟机。
配置完成后,在新建的虚拟机主窗口中,单击【编辑虚拟机设置】按钮,在弹出的【虚拟机设置】窗口中,选择【CD/DVD】,然后单击右侧【使用ISO镜像文件】选项,并单击其下方的【浏览】按钮,在浏览文件窗口中选择之前下载的Ubuntu镜像文件,然后单击【确定】按钮。
二、安装操作系统
打开新建的虚拟机,选择系统语言-English后选择操作-Install Ubuntu Server
选择安装过程和系统的默认语言-English
选择区域-other-Asia-China
选择字符集编码-United States
是否扫描和配置键盘,选择否-No
选择键盘类型-English (US)
选择键盘布局-English (US)
设置主机名称(自行设置,这里我设置为“Lulu”)-Continue
设置用户全名(这里为“Lulu”)-Continue
设置登录账号(这里为“Lulu”)-Continue;
设置登录密码(空格选择“Show Password in Clear”可以显示密码)-Continue
重复上一步设置的登录密码-Continue
是否加密home文件夹,选择否-No
确认时区是否正确(这里是“Asia/Shanghai”正确),选择是-Yes
选择分区方式(分区向导-使用整个磁盘)-“Guided - use entire disk”
选择要分区的磁盘(这里只有一块)-“SCSI3 ···”是否将变更写入磁盘,选择是-Yes
设置HTTP代理,无需填写直接下一步-Continue
设置系统升级方式,选择自动升级-Install security updates automatically
选择要安装的软件,多加一个OpenSSH Server(按空格选中),然后下一步-Continue
是否安装GRUB引导程序,选择是-Yes
完成安装,选择下一步-Continue
系统安装完会自动启动主机,然后输入设置好的登录账户和密码就可以开始使用了
三、修改root密码
Ubuntu的默认root密码是随机的,即每次开机都有一个新的root密码。我们可以在终端输入命令 sudo passwd,然后输入当前用户的密码,enter。
终端会提示我们输入新的密码并确认,此时的密码就是root新密码。修改成功后,输入命令 su root,再输入新的密码就可以了。(为了方便统一:我均设置成123456789)
四、环境配置
1.关闭防火墙
【操作目的】
集群一般都是内网搭建的,如果内网内开启防火墙,内网集群通讯会容易出现很多问题。因此需要关闭集群中每个节点的防火墙。
【操作步骤】
执行以下命令进行关闭防火墙:
sudo ufw disable
然后执行以下命令,禁止防火墙开机启动:
sudo ufw default deny
其它相关命令如下:
查看防火墙状态:
sudo ufw status
2.设置固定IP
【操作目的】
为了避免后续启动操作系统后,IP地址改变了,导致本地SSH连接不上,节点间无法访问,需要将操作系统设置为固定IP。
【操作步骤】
- 修改/查看子网IP
在VMWare中单击菜单栏的【编辑】/【虚拟网络编辑器】,弹出以下界面,然后选中VMnet8 NAT模式,并修改子网IP,节点的IP地址必须与子网IP的网段一致。
第一步:先获取网卡名称,输入ifconfig,如下图,我们的网卡名称为 ens33
第二步:修改网卡配置文件sudo vim /etc/network/interfaces
sudo vim /etc/network/interfaces
添加以下内容:
auto ens33
iface ens33 inet static
address 192.168.192.135 (IP地址写自己号段内的,此处我的是192)
netmask 255.255.255.0
gateway 192.168.192.135
dns-nameserver 8.8.8.8
第三步:修改DNS配置
第四步:重启网络服务
sudo /etc/init.d/networking restart
解决Ubuntu的root账号无法登录SSH问题-Permission denied, please try again.
https://blog.csdn.net/qq_36864672/article/details/78221840
注:如果没有vim需要输入sudo apt-get install vim进行下载安装
Linux下解决网卡重启失败Restarting network (via systemctl): Job for network.service failed
https://blog.csdn.net/qq_36168479/article/details/102546511
第五步:连接FinalShell
FinalShell是一个远程连接的工具,需要提前下载,下载后新建连接输入先前查看的ip地址、用户名、密码即可使用。
找到opt文件夹,在其下新建三个文件夹分别是data、modules、softwares
通过使用FinalShell来进行传输jdk,然后解压到对应位置,完成环境变量配置,修改/etc/profile配置并立刻更新。
输入java -version 查看java是否配置成功,如下图是配置成功的图例,显示出java版本
3.修改主机名
【操作目的】
在分布式集群中,主机名用于区分不同的节点,并方便节点之间相互访问,因此需要修改主机的主机名。
【操作步骤】
执行以下命令,修改hostname文件,将其中的主机名改为ubuntu01:
vi /etc/hostname
重启系统使修改生效。
注意:修改主机名需要重启才能生效。
重启后
4. 配置主机IP映射
使用ifconfig命令查看虚拟机的IP,192.168.192.135
执行以下命令,修改hosts文件:
sudo vim /etc/hosts
在hosts文件中加入以下内容:
192.168.192.135 ubuntu01
配置完后,使用ping命令检查是否配置成功,如下:
ping ubuntu01
最后,配置一下本地Windows系统的主机IP映射,方便本地通过主机名直接访问虚拟机。进入Windows操作系统的目录C:\Windows\System32\drivers\etc编辑hosts文件,加入以下内容:
192.168.192.135 ubuntu01
五、Hadoop 2.x伪分布式集群搭建
1.配置节点SSH无密钥登录
在节点中执行以下命令,生成秘钥文件:
在节点中执行以下命令,将公钥信息拷贝并追加到对方节点的授权文件authorized_keys中:
2. 搭建Hadoop集群
修改配置文件:
Hadoop所有的配置文件都存在于安装目录下的/opt/modules/Hadoop-2.6.0/etc/hadoop中,修改如下配置文件:
hadoop-env.sh
mapred-env.sh
yarn-env.sh
三个文件分别加入JAVA_HOME环境变量,如下:
export JAVA_HOME=/opt/modules/jdk1.8.0_162
注意不要改成上图的情况,一定要删掉export JAVA_HOME=${JAVA_HOME}
(1)修改配置文件core-site.xml,加入以下内容:
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://ubuntu01:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>file:/opt/modules/hadoop-2.6.0/tmp</value>
</property>
</configuration>
参数解析:
fs.defaultFS:HDFS的默认访问路径。
hadoop.tmp.dir:Hadoop临时文件的存放目录,可自定义。
(2)修改配置文件hdfs-site.xml,加入以下内容:
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property><!--不检查用户权限-->
<name>dfs.permissions.enabled</name>
<value>false</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:/opt/modules/hadoop-2.6.0/tmp/dfs/name</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:/opt/modules/hadoop-2.6.0/tmp/dfs/data</value>
</property>
</configuration>
参数解析:
dfs.replication:文件在HDFS系统中的副本数。
dfs.namenode.name.dir:HDFS名称节点数据在本地文件系统的存放位置。
dfs.datanode.data.dir:HDFS数据节点数据在本地文件系统的存放位置。
(3)修改slaves文件,配置DataNode节点。slaves文件原本无任何内容,需要将所有DataNode节点的主机名都添加进去,每个主机名占一整行。本例中,DataNode为一个节点:
ubuntu01
注意不要改成上图的情况,删掉localhost
3.配置YARN
(1)重命名mapred-site.xml.template文件为mapred-site.xml,修改mapred-site.xml文件,添加以下内容,指定以yarn集群方式运行。
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
(2)修改yarn-site.xml文件,添加以下内容:
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>ubuntu01</value>
</property>
</configuration>
参数解析:
yarn.nodemanager.aux-services :NodeManager上运行的附属服务。需配置成mapreduce_shuffle才可运行MapReduce程序。
4.配置Hadoop系统变量
为了能在任何目录下执行Hadoop命令,可以配置Hadoop系统变量。
修改文件/etc/profile,添加以下内容:
5. 启动Hadoop
启动Hadoop之前,需要先格式化NameNode。格式化NameNode可以初始化HDFS文件系统的一些目录和文件,在centos01节点上执行以下命令,进行格式化操作(只格式化一次):
hadoop namenode -format
格式化成功后,在centos01节点上执行以下命令,启动Hadoop集群:
start-all.sh
问题解决方法:https://blog.csdn.net/qq_40414738/article/details/99544777
集群启动成功后,分别在各个节点上执行jps命令,查看启动的Java进程。可以看到,各节点的Java进程如下:
ubuntu01节点的进程:
6.测试HDFS
访问网址:http://192.168.192.135:50070 可以查看HDFS的NameNode信息,界面如下:
7. 测试MapReduce
总结
提示:这里对文章进行总结:
例如:以上就是今天要讲的内容