Hadoop集群之伪分布式搭建

目录

一、前言

二、安装及配置虚拟机

1、在个人计算机上安装及配置Linux虚拟机

2、使用Xshell工具通过远程访问的方式对虚拟机进行管理

3、配置本地YUM源并在线安装常用的软件包

三、搭建Hadoop伪分布式集群

1、配置免密登录

2、HDFS的相关配置

3、YARN的相关配置 

4、Web端访问 


一、前言

秉承着学习的态度去写下我在学习Hadoop的一些心得,若有不足之处,还请各位多多包涵。

Hadoop集群环境可以分为单机环境,伪分布式环境和完全分布式环境,文章将介绍在个人计算机上安装配置虚拟机,并在虚拟机中搭建Hadoop伪分布式集群的完整过程。

Hadoop相关软件安装包及其版本说明

软件版本安装包名称备注
Linux  OSCentOS 7CentOS-7-x86_64-DVD-200364位
JDK1.8+jdk-8u281-linux-x64.rpm64位
VMware17VMware Workstation 17 Pro虚拟机软件
Hadoop3.1.4hadoop-3.1.4.tar.gz安装包
SSH连接工具1tabby-1.0.196-setup-x64远程连接虚拟机

二、安装及配置虚拟机

1、在个人计算机上安装及配置Linux虚拟机

(1)环境准备

CentOS下载地址:​​​​​​https://centos.org/download/

(2)设置固定IP

使用service network restart命令重启网卡服务

修改配置文件的内容,将该文件中ONBOOT的值修改为“yes ” ,将BOOTPROTO的值修改为“static ” ,并添加IP地址IPADDR、子网掩码NETMASK、网关GATEWAY以及域名解析服务器DNS1的网络配置信息。

vi /etc/sysconfig/network-scripts/ifcfg-ens33

再次重启网卡服务,使修改内容生效,并使用“ip addr”命令查看IP

使用tabby连接虚拟机前,需要先设置VMware Workstation的虚拟网络。在VMware的“编辑”菜单中单击“虚拟网络编辑器(N)…”选项。

注意:子网IP必须对应自己设置的IP

2、使用Xshell工具通过远程访问的方式对虚拟机进行管理

Tabby官网下载地址:https://tabby.sh/

**连接步骤说明**

3、配置本地YUM源并在线安装常用的软件包

使用“cd /etc/yum.repos.d”命令,进入/etc/yum.repos.d目录。

将除YUM本地源以外的其他YUM源禁用。将yum.repos.d目录下的文件CentOS-Base.repo、CentOS-Debuginfo.repo、CentOS-fasttrack.repo、CentOS-Vault.repo分别重命名为CentOS-Base.repo.bak、CentOS-Debuginfo.repo.bak、CentOS-fasttrack. repo.bak、CentOS-Vault.repo.bak。

修改CentOS-Media.repo文件内容。将baseurl的值修改为“file:///media/”,将gpgcheck的值改为“0”,将enabled的值改为“1”。

使用“mount /dev/sr0 /media”命令挂载本地YUM源。

如果返回“mount: no medium found on /dev/sr0”的信息提示,那么说明挂载没有成功。


解决方案为在VMware软件中,右键单击master虚拟机,在弹出的快捷菜单中选择“设置”命令,弹出“虚拟机设置”对话框。在“硬件”选项卡中选择“CD/DVD(IDE)”所在行,并在右侧的“设备状态”组中选择“已连接(C)”复选框。

再次执行挂载本地YUM源命令,返回“mount:block device /dev/sr0 is write-protected,mounting read-only”信息提示或“mount: /dev/sr0 写保护,将以只读方式挂载” 中文信息提示,说明挂载成功。

 清理YUM缓存。使用“yum clean all”命令,出现下图所示的信息,说明清理yum缓存成功。

使用yum命令安装软件

yum install -y vim zip openssh-server openssh-clients

三、搭建Hadoop伪分布式集群

**将所需要的安装包上传至虚拟机/opt目录下**

1、配置免密登录

修改主机名

hostnamectl set-hostname master

修改host文件,添加以下代码

vim /etc/hosts

 

重启虚拟机,并使用ssh-keygen产生公钥与私钥对,如以下图。

ssh-keygen -t rsa

 

使用ssh-copy-id命令将公钥复制至远程机器中,如图所示。

ssh-copy-id -i /root/.ssh/id_rsa.pub master

 

验证SSH是否能够无密钥登录,在master节点下输入ssh master,结果如下图,说明配置成功。

2、HDFS的相关配置

进入Hadoop主目录:cd /opt/hadoop/etc/hadoop

注意:为了方便,修改hadoop-3.1.4为hadoop

(1)配置hadoop-env.sh,添加以下代码

vim hadoop-env.sh

hadoop-env.sh文件是配置hadoop环境的文件,添加java的路径。如图所示:

export JAVA_HOME=/usr/java/jdk1.8.0_281-amd64

 (2)配置core-site.xml,添加以下代码

vim core-site.xml
<configuration>
 <property>
     <name>fs.defaultFS</name>
     <value>hdfs://master:8020</value>
 </property>
 <property>
     <name>hadoop.tmp.dir</name>
     <value>/opt/hadoop/tmp</value>
 </property>
</configuration>

(3)配置hdfs-site.xml,添加以下代码

vim hdfs-site.xml
<configuration>
 <property>
     <name>dfs.replication</name>
     <value>1</value>
 </property>
</configuration>

(4)格式化HDFS

格式化命令:

hdfs namenode -format

出现以下代码,说明格式化成功! 

 

(5)HDFS的启动和停止

启动命令:

start-dfs.sh

注意:在前面已经配置hadoop的环境变量,故只需要输入start-dfs.sh就可以启动,如果没有配置环境变量,则需退回/opt/hadoop目录下,使用sbin/start-dfs.sh运行。

暂停命令:

stop-dfs.sh

注意:同样的如果没有配置环境变量,则需退回/opt/hadoop目录下,使用sbin/stop-dfs.sh运行。

注意事项:

如果在启动hadoop时,出现以下错误

 

在hadoop安装目录下找到sbin文件夹

在里面修改四个文件

1、对于start-dfs.sh和stop-dfs.sh文件,添加下列参数:

HDFS_DATANODE_USER=root
HADOOP_SECURE_DN_USER=hdfs
HDFS_NAMENODE_USER=root
HDFS_SECONDARYNAMENODE_USER=root

2、对于start-yarn.sh和stop-yarn.sh文件,添加下列参数:

YARN_RESOURCEMANAGER_USER=root
HADOOP_SECURE_DN_USER=yarn
YARN_NODEMANAGER_USER=root

(6)验证(查看是否启动成功)

命令:

jps

 可以查看到有三个进程已经开启,分别是NameNode、DataNode、SecondaryNameNode。则表示启动HDFS成功。

3、YARN的相关配置 

(1)配置yarn-site.xml

vim yarn-site.xml
<configuration>
 <property>
    <name>yarn.resourcemanager.hostsname</name>
    <value>master</value>
 </property>
 <property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
 </property>
</configuration>

(2)配置mapred-site.xml

把mapred-site.xml.template修改成mapred-site.xml

cp mapred-site.xml.template mapred-site.xml

vim mapred-site.xml

<configuration>
<property>
     <name>mapreduce.framework.name</name>
     <value>yarn</value>
</property>
</configuration>

(3)启动和停止YARN

启动命令:

start-dfs.sh

 暂停命令:

stop-dfs.sh

同理dfs的启动,若不能成功启动,则需退回/opt/hadoop目录下使用sbin/start-yarn.sh或sbin/stop-yarn.sh

4、Web端访问 

(1)关闭防火墙

停止firewall:

systemctl stop firewalld.service

禁止firewall开机启动:

systemctl disable firewalld.service

(2)访问HDFS:50070

192.168.128.170:50070    #访问HDFS,50070是端口

(3)访问YARN:8088

192.168.128.170:8088     #访问YARN,8088是端口

感谢阅读,之后的学习我也会像这样记录自己的心得。

  • 2
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值