hadoop完全分布式的搭建

最新推荐文章于 2024-08-06 10:21:57 发布

徙格~

最新推荐文章于 2024-08-06 10:21:57 发布

阅读量284

点赞数 1

文章标签： hadoop 分布式大数据

本文链接：https://blog.csdn.net/2203_75542663/article/details/130302514

版权

hadoop的安装和配置

集群启动与监控

验证Hadoop是否配置并启动成功

一.设置静态IP

命令：vi /etc/sysconfig/network-scripts/ifcfg-ens33

命令：systemctl restart network.service 重启Linux系统网络。

验证：ip addr命令查看设置是否成功

二.关闭防火墙

查看Linux系统防火墙状态：命令：firewall-cmd --state
关闭防火墙命令：systemctl stop firewalld.service 三台服务器均需要关闭
关闭防火墙的自动运行命令：systemctl disable firewalld.service

三.修改主机名（HOSTNAME）

命令：vi /etc/hostname
三台服务器的主机名分别为：master slave1 slave2
修改完主机名需要重启虚拟机

四.配置主机名与IP映射

完全分布式集群中三台服务器的主机名与IP地址的映射信息均需修改。
命令：vi /etc/hosts
IP地址与主机名的映射输入格式为：IP地址主机名
其中IP地址即步骤1中设置的静态IP地址

五.设置SSH免密登录

设置ssh之前，需要验证虚拟机是否已经安装了ssh

验证命令：rep -qa | grep ssh
假如没有安装则要使用命令：yum-y install openssh

三台服务器均需执行以下命令产生密钥，位于~/.ssh目录
命令：ssh-keygen –t rsa
每台机器复制各自公钥（id_rsa.pub）到每台服务器
ssh-copy-id -i ~/.ssh/id_rsa.pub master
ssh-copy-id -i ~/.ssh/id_rsa.pub slave1
ssh-copy-id -i ~/.ssh/id_rsa.pub slave2
验证三台服务器是否可以相互免密登录
ssh master
ssh slave1
ssh slave2

六.安装Java运行环境

通过xftp工具将安装包上传到三台服务器的某个目录下

解压文件：tar -zxvf jdk-8u191-linux-x64.tar.gz

重命名解压后的文件夹:将解压后的文件夹重命名为jdk

1. 配置环境变量jdk

命令：vi /etc/profile，编辑此文件增加2行内容

生效配置信息：source /etc/profile

七.配置时间同步服务

1.安装ntpdate

每台服务器在线安装：yum install ntpdate -y

2.同步ntp服务器时间

命令格式：ntpdate -u ip(ntp服务器ip)

服务器	IP	命令
中国国家授时中心	210.72.145.44	ntpdate -u 210.72.145.44
NTP服务器(上海)	ntp.api.bz	ntpdate -u ntp.api.bz
美国	time.nist.gov	ntpdate -u time.nist.gov
复旦	ntp.fudan.edu.cn	ntpdate -u ntp.fudan.edu.cn
微软公司授时主机(美国)	time.windows.com	ntpdate -u time.windows.com

八.Hadoop的安装与配置

1.上传安装包至三台服务器

2.解压安装包并重命名

命令：tar -zxvf hadoop-2.7.7.tar.gz

3.配置环境变量并立即生效

命令：vi /etc/profile，编辑此文件增加2行内容

export HADOOP_HOME=/usr/local/hadoop

export

PATH=.:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH

生效配置文件命令：source /etc/profile

4.修改Hadoop核心配置文件（在其中一台主服务器配置即可）

Hadoop的核心配置文件有多个：hadoop-env.sh、yarn-env.sh、core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml，

其路径为：/usr/local/hadoop/etc/hadoop

1)修改hadoop-env.sh文件（同伪分布式）

修改JAVA_HOME的配置信息，将原来的值修改为Java运行环境的安装路径。 export JAVA_HOME=/usr/local/jdk…(jdk实际安装路径)

2) 修改yarn-env.sh 文件（同伪分布式）

此文件是YARN框架运行环境的配置，同样需要修改JAVA_HOME的配置信息。 export JAVA_HOME=/usr/local/jdk…(jdk实实际安装路径)

3)修改 core-site.xml，配置HDFS的地址和端口号以及临时数据的目录。（同伪分布式）

<configuration>

<property>



<name>fs.defaultFS</name>

<value>hdfs://master:8020</value>

</property>



<property>

<name>hadoop.tmp.dir</name>

<value>/usr/local/hadoop/tmp</value>

</property>

</configuration>

4)修改hdfs-site.xml ，修改HDFS保存数据的副本数量以及存储NameNode和DataNode元数据的目录

5)修改修改mapred-site.xml，配置使用yarn框架（同伪分布式）因Hadoop的此目录下无该文件，需先创建此文件

执行命令：cp mapred-site.xml.template mapred-site.xml

然后配置如下内容：

<configuration>

<property>

<name>mapreduce.framework.name</name>

<value>yarn</value>

</property>

</configuration>

6)修改yarn-site.xml，配置yarn属性（同伪分布式）

配置内容如下：

<configuration>

<!—配置resourceManager在哪台机器 -->

<property>

<name>yarn.resourcemanager.hostname</name>

<value>master</value>

</property>



<property>

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

</configuration>

7)修改slaves 此文件所在的目录与以上几个核心配置文件相同，此文件中需将集群中的各从节点服务器名称配置进去。

命令：vi slaves

5.分发主节点配置文件到集群中从节点服务器

九.集群启动与监控

同伪分布式启动，首先需要在主节点服务器进行格式化操作。

NameNode格式化

在Hadoop的解压目录：/usr/local/hadoop/bin下执行

hdfs namenode -format

启动/停止HDFS

在Hadoop的解压目录：/usr/local/hodoop/sbin下存放启动、停止的所有脚本文件

start-dfs.sh stop-dfs.sh

启动/停止YARN start-yarn.sh stop-yarn.sh 一

次性同时启动HDFS和YARN（此种方式不建议使用） start-all.sh stop-all.sh

验证Hadoop是否配置并启动成功查看启动进程方式需要在集群的三台服务器分别查看启动进程进行验证