hadoop2.x完全分布式集群搭建

最新推荐文章于 2023-04-23 09:30:00 发布

荷华

最新推荐文章于 2023-04-23 09:30:00 发布

阅读量619

点赞数

文章标签：分布式 hadoop 大数据

本文链接：https://blog.csdn.net/qq_44125155/article/details/126956614

版权

1.创建虚拟机

我们需要准备三台及以上的虚拟机。安装好一台虚拟机后，其余虚拟机克隆即可。

2.修改网络配置

我用的liunx是centos7,所以我的网络配置文件时ifcig-ens33。一般情况下还可能是ifcig-eth0。
在这里插入图片描述将ip地址修改为我们想要的静态ip。我的其他文章中有如何修改ip地址这里就不多说了。将其余的两个系统修改即可。
配好以后，我们修改hosts文件。将ip地址和域名一一对应。这样在后面就不要用ip地址了。
在这个路径下打开hosts文件，在其中添加上对应的节点即可。（！这里配置错误了五十对应五十。五十一对应五十一）

vim /etc/hosts

在这里插入图片描述然后我们利用rsync远程同步工具同步一下这些文件。这样这个文件就会被同步到其余的两个系统中。
如果无法同步可能是虚拟机的防火墙的问题。

rsync -rvl /etc/hosts root@192.168.109.51:/etc/hosts
rsync -rvl /etc/hosts root@192.168.109.52:/etc/hosts

3.安装jdk和hadoop

我们在opt目录下创建两个文件夹。一个software,一个module。software用于存放安装包，module用于存放文件。
我已经准备好了java和hadoop大家可以去官网下载。我这里只给出后面的步骤了。
我们开始解压java和hadoop的安装包
使用下面两个命令解压出安装包，解压成功后即可在module文件夹看到它们。

tar -zxvf jdk-8u144-linux-x64.tar.gz -C /opt/module/
tar -zxvf hadoop-2.7.2.tar.gz -C /opt/module/

在这里插入图片描述

进入到module文件中我们配置java和hadoop的环境变量。分别进入jdk和hadoop文件夹使用pwd命令获取文件路径。
在进入到/etc/profile文件夹中进行配置环境变量。
在这里插入图片描述

在命令行中运行java和hadoop能出现对应代码及配置成功。我们再用rsync进行文件同步，将module文件夹和profile文件同步到其他的两台机器上。
在我们使用熟练后可以使用脚本来自动的完成文件同步。
在/usr/local/bin目录下创建名为xsync的脚本文件，文件名自己取。

#!/bin/bash
#1 获取输入参数个数，如果没有参数，直接退出
pcount=$#
if((pcount==0)); then
echo no args;
exit;
fi

#2 获取文件名称
p1=$1
fname=`basename $p1`
echo fname=$fname

#3 获取上级目录到绝对路径
pdir=`cd -P $(dirname $p1); pwd`
echo pdir=$pdir

#4 获取当前用户名称
user=`whoami`

#5 循环 注意这里的地址要修改为自己设置的对应域名
for((host=50; host<53; host++)); do
        echo ------------------- hadoop$host --------------
        rsync -rvl $pdir/$fname $user@hadoop$host:$pdir
done

然后使用同步工具将同步到其余的机器上。执行 xsync /usr/local/bin即可自动完成同步。

4.最重要的一步，集群文件的配置。

规划好集群文件的部署配置。
hdfs的NameNode和SecondaryNameNode。不要放在一个服务器上。ResourceManager不要和前面两个放在一个机器上。配置文件都在hadoop-2.7.2中的etc/hadoop
在这里插入图片描述
1.配置核心文件core-site.xml

<!-- 指定HDFS中NameNode的地址 -->
<property>
		<name>fs.defaultFS</name>
      <value>hdfs://hadoop50:9000</value>
</property>

<!-- 指定Hadoop运行时产生文件的存储目录 -->
<property>
		<name>hadoop.tmp.dir</name>
		<value>/opt/module/hadoop-2.7.2/data/tmp</value>
</property>

2.配置hdfs
先配置hadoop-env.sh。在其中加入java_home的地址即可

在这里插入图片描述
在修改hdfs-site.xml文件

<!-- 文件备份数量默认是3 -->
<property>
		<name>dfs.replication</name>
		<value>3</value>
</property>

<!-- 指定Hadoop辅助名称节点主机配置 -->
<property>
      <name>dfs.namenode.secondary.http-address</name>
      <value>hadoop52:50090</value>
</property>

在这里插入图片描述
3.配置yarn
还是先配置yarn-env.sh。在其中添加上java_home的路径即可
在配置yarn-site.xml

<!-- Reducer获取数据的方式 -->
<property>
		<name>yarn.nodemanager.aux-services</name>
		<value>mapreduce_shuffle</value>
</property>

<!-- 指定YARN的ResourceManager的地址 -->
<property>
		<name>yarn.resourcemanager.hostname</name>
		<value>hadoop51</value>
</property>

4.配置MapReduce
还是先配置mapred-env.sh.添加java_home地址。
再配置mapred-site.xml。我们要先修改mapred-site.xml.template为mapred-site.xml。

<!-- 指定MR运行在Yarn上 -->
<property>
		<name>mapreduce.framework.name</name>
		<value>yarn</value>
</property>

我们再用xsync脚本分发出去。
配置ssh无密码登录。我们需要再hadoop50和hadoop51上配置免密登录
再家目录下进入.ssh文件夹 cd .ssh/ 生成公钥和私钥。运行下方代码，并按下三下回车。

ssh-keygen -t rsa

在这里插入图片描述
如何使用下面命令将公钥拷贝到其他的目标机器

ssh-copy-id hadoop50
ssh-copy-id hadoop51
ssh-copy-id hadoop52

5.启动和暂停集群。

在hadoop50上面启动hdfs.

sbin/start-dfs.sh

在hadoop51上面启动yarn

sbin/start-yarn.sh

在web端（就是我们的本地机）查看SecondaryNameNode输入192.168.109.52：50090即可。
关闭服务。如果不能访问关闭防火墙。

荷华

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
hadoop2.x完全分布式集群搭建

hadoop2完全分布式配置
复制链接

扫一扫