Hadoop HA 集群搭建

最新推荐文章于 2022-04-26 11:02:01 发布

灬十二

最新推荐文章于 2022-04-26 11:02:01 发布

阅读量169

点赞数

分类专栏：大数据文章标签： Hadoop

大数据专栏收录该内容

26 篇文章 1 订阅

订阅专栏

1、Hadoop HA 原理概述
为什么会有 hadoop HA 机制呢？
HA：High Available，高可用在Hadoop 2.0之前,在HDFS 集群中NameNode 存在单点故障 (SPOF：A Single Point of Failure)。对于只有一个 NameNode 的集群，如果 NameNode 机器出现故障(比如宕机或是软件、硬件升级)，那么整个集群将无法使用，直到 NameNode 重新启动

那如何解决呢？
HDFS 的 HA 功能通过配置 Active/Standby 两个 NameNodes 实现在集群中对 NameNode 的热备来解决上述问题。如果出现故障，如机器崩溃或机器需要升级维护，这时可通过此种方式将 NameNode 很快的切换到另外一台机器。
在一个典型的 HDFS(HA) 集群中，使用两台单独的机器配置为 NameNodes 。在任何时间点，确保 NameNodes 中只有一个处于 Active 状态，其他的处在 Standby 状态。其中 ActiveNameNode 负责集群中的所有客户端操作，StandbyNameNode 仅仅充当备机，保证一旦 ActiveNameNode 出现问题能够快速切换。
为了能够实时同步 Active 和 Standby 两个 NameNode 的元数据信息（实际上 editlog），需提供一个共享存储系统，可以是 NFS、QJM（Quorum Journal Manager）或者 Zookeeper，Active
Namenode 将数据写入共享存储系统，而 Standby 监听该系统，一旦发现有新数据写入，则读取这些数据，并加载到自己内存中，以保证自己内存状态与 Active NameNode 保持基本一致，如此这般，在紧急情况下 standby 便可快速切为 active namenode。为了实现快速切换， Standby 节点获取集群的最新文件块信息也是很有必要的。为了实现这一目标，DataNode 需要配置 NameNodes 的位置，并同时给他们发送文件块信息以及心跳检测。

2、集群规划
描述：hadoop HA 集群的搭建依赖于 zookeeper，所以选取三台当做 zookeeper 集群我总共准备了四台主机，分别是 hadoop02，hadoop03，hadoop04，hadoop05 其中 hadoop02 和 hadoop03 做 namenode 的主备切换，hadoop04 和 hadoop05 做 resourcemanager 的主备切换
四台：

五台：
在这里插入图片描述
七台：

具体怎样规划，其实可以自由设置

3、集群服务器准备
1.修改主机名
2. 修改 IP 地址
3. 添加主机名和 IP 映射
4. 添加普通用户 hadoop 用户并配置 sudoer 权限
5. 设置系统启动级别
6. 关闭防火墙/关闭 Selinux
7. 安装 JDK

两种准备方式：
1、每个节点都单独设置，这样比较麻烦。线上环境可以编写脚本实现
2、虚拟机环境可是在做完以上 7 步之后，就进行克隆
3、然后接着再给你的集群配置 SSH 免密登陆和搭建时间同步服务
8、配置 SSH 免密登
9、同步服务器时间

4、集群安装
1、安装 Zookeeper 集群在此略过，见 zookeeper 安装文档
2、安装 hadoop 集群
1、上传安装包 hadoop-2.6.5-centos-6.7.tar.gz

2、解压到对应的安装目录
[hadoop@hadoop02 ~]# tar -zxvf hadoop-2.6.5-centos-6.7.tar.gz -C /home/hadoop/apps/

3、修改配置文件

1.修改 hadoo-env.sh 修改一行
export JAVA_HOME= /usr/local/jdk1.8.0_73

2.修改 core-site.xml

<-- 指定 hdfs 的 nameservice 为 myha01 -->

fs.defaultFS
hdfs://myha01/

<-- 指定 hadoop 工作目录 -->

hadoop.tmp.dir
/home/hadoop/data/hadoopdata/

<-- 指定 zookeeper 集群访问地址 -->

ha.zookeeper.quorum
hadoop02:2181,hadoop03:2181,hadoop04:2181

3.修改 hdfs-site.xml
<-- 指定副本数 -->

dfs.replication
2

<–指定 hdfs 的 nameservice 为 myha01，需要和 core-site.xml 中保持一致–>

dfs.nameservices
myha01

<-- myha01 下面有两个 NameNode，分别是 nn1，nn2 -->

dfs.ha.namenodes.myha01
nn1,nn2

<-- nn1 的 RPC 通信地址 -->

dfs.namenode.rpc-address.myha01.nn1
hadoop02:9000

<-- nn1 的 http 通信地址 -->

dfs.namenode.http-address.myha01.nn1
hadoop02:50070

<-- nn2 的 RPC 通信地址 -->

dfs.namenode.rpc-address.myha01.nn2
hadoop03:9000

<-- nn2 的 http 通信地址 -->

dfs.namenode.http-address.myha01.nn2
hadoop03:50070

<-- 指定 NameNode 的 edits 元数据在 JournalNode 上的存放位置 -->

dfs.namenode.shared.edits.dir
qjournal://hadoop02:8485;hadoop03:8485;hadoop04:8485/myha01

<-- 指定 JournalNode 在本地磁盘存放数据的位置 -->

dfs.journalnode.edits.dir
/home/hadoop/data/journaldata

<-- 开启 NameNode 失败自动切换 -->

dfs.ha.automatic-failover.enabled
true

<-- 配置失败自动切换实现方式 -->

<-- 此处配置在安装的时候切记检查不要换行–>

dfs.client.failover.proxy.provider.myha01
org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverPr
oxyProvider

<-- 配置隔离机制方法，多个机制用换行分割，即每个机制暂用一行–>

dfs.ha.fencing.methods
sshfence shell(/bin/true)

<-- 使用 sshfence 隔离机制时需要 ssh 免登陆 -->

dfs.ha.fencing.ssh.private-key-files
/home/hadoop/.ssh/id_rsa

<-- 配置 sshfence 隔离机制超时时间 -->

dfs.ha.fencing.ssh.connect-timeout
30000

4.修改 mapred-site.xml

<-- 指定 mr 框架为 yarn 方式 -->

mapreduce.framework.name
yarn

<-- 设置 mapreduce 的历史服务器地址和端口号 -->

mapreduce.jobhistory.address
hadoop02:10020

<-- mapreduce 历史服务器的 web 访问地址 -->

mapreduce.jobhistory.webapp.address
hadoop02:19888

5. 修改 yarn-site.xml

<-- 开启 RM 高可用 -->

yarn.resourcemanager.ha.enabled
true

<-- 指定 RM 的 cluster id -->

yarn.resourcemanager.cluster-id
yrc

<-- 指定 RM 的名字 -->

yarn.resourcemanager.ha.rm-ids
rm1,rm2

<-- 分别指定 RM 的地址 -->

yarn.resourcemanager.hostname.rm1
hadoop04

yarn.resourcemanager.hostname.rm2 hadoop05

<-- 指定 zk 集群地址 -->

yarn.resourcemanager.zk-address
hadoop02:2181,hadoop03:2181,hadoop04:2181

<-- 要运行 MapReduce 程序必须配置的附属服务 -->

yarn.nodemanager.aux-services
mapreduce_shuffle

<-- 开启 YARN 集群的日志聚合功能 -->

yarn.log-aggregation-enable
true

<-- YARN 集群的聚合日志最长保留时长 -->

yarn.log-aggregation.retain-seconds
86400

<-- 启用自动恢复 -->

yarn.resourcemanager.recovery.enabled
true

<-- 制定 resourcemanager 的状态信息存储在 zookeeper 集群上–>

yarn.resourcemanager.store.class
org.apache.hadoop.yarn.server.resourcemanager.recovery.ZKRMStateSt
ore

6.修改 slaves
vi slaves
添加 datanode 的节点地址：
hadoop02 hadoop03 hadoop04 hadoop05

7.分发安装包到其他机器
scp -r hadoop-2.6.5 hadoop@hadoop03: $P W D s c p - r h a d o o p - 2.6.5 h a d o o p @ h a d o o p 04 :$ PWD
scp -r hadoop-2.6.5 hadoop@hadoop05:$PWD

8.并分别配置环境变量
vi ~/.bashrc
添加两行：
export HADOOP_HOME=/home/hadoop/apps/hadoop-2.6.5
export PATH= $P A T H :$ HADOOP_HOME/bin:$HADOOP_HOME/sbin 保存退出

集群初始化操作（记住：严格按照以下步骤执行）
1、先启动 zookeeper 集群启动：zkServer.sh start 检查启动是否正常：zkServer.sh status
在这里插入图片描述
2、分别在每个 zookeeper（也就是规划的三个 journalnode 节点，不一定跟 zookeeper 节点一样）节点上启动 journalnode 进程
[hadoop@hadoop02 ~]$ hadoop-daemon.sh start journalnode
[hadoop@hadoop03 ~]$ hadoop-daemon.sh start journalnode
[hadoop@hadoop04 ~]$ hadoop-daemon.sh start journalnode
然后用 jps 命令查看是否各个 datanode 节点上都启动了 journalnode 进程如果报错，根据错误提示改进
在这里插入图片描述
3、在第一个 namenode 上执行格式化操作
[hadoop@hadoop02 ~]$ hadoop namenode -format

在这里插入图片描述
然后会在 core-site.xml 中配置的临时目录中生成一些集群的信息把他拷贝的第二个 namenode 的相同目录下
hadoop.tmp.dir
/home/hadoop/data/hadoopdata/
这个目录下，千万记住：两个 namenode 节点该目录中的数据结构是一致的
[hadoop@hadoop02 ~]$ scp -r ~/data/hadoopdata/ hadoop03:~/data
或者也可以在另一个 namenode 上执行：hadoop namenode -bootstrapStandby
在这里插入图片描述
4、格式化 ZKFC
[hadoop@hadoop02 ~]$ hdfs zkfc -formatZK
在第一台机器上即可

在这里插入图片描述

5、启动 HDFS
[hadoop@hadoop02 ~]$ start-dfs.sh
在这里插入图片描述
查看各节点进程是否启动正常：依次为2345四台机器的进程：

访问web页面 http://hadoop02:50070

访问web页面 http://hadoop03:50070

6、启动YARN
[hadoop@hadoop04~]$start-yarn.sh
在主备resourcemanager中随便选择一台进行启动，正常启动后，检查各节点的进程：
在这里插入图片描述
若备用节点的resourcemanager没有启动起来，则手动启动：

之后打开浏览器，访问页面 http://hadoop04:8088

访问web页面 http://hadoop05:8088

hadoop05 是 standby resourcemanager，会自动跳转到 hadoop04

7、查看各主节点的状态
HDFS:
hdfs haadmin -getServiceState nn1
hdfs haadmin -getServiceState nn2
在这里插入图片描述
YARN:
yarn rmadmin -getServiceState rm1
yarn rmadmin -getServiceState rm2

启动 mapreduce 任务历史服务器
[hadoop@hadoop02 ~]$ mr-jobhistory-daemon.sh start historyserver

8、按照配置文件配置的历史服务器的 web 访问地址去访问： http://hadoop02:19888
在这里插入图片描述

灬十二

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hadoop HA 集群搭建

1、Hadoop HA 原理概述为什么会有 hadoop HA 机制呢？HA：High Available，高可用在Hadoop 2.0之前,在HDFS 集群中NameNode 存在单点故障 (SPOF：A Single Point of Failure)。对于只有一个 NameNode 的集群，如果 NameNode 机器出现故障(比如宕机或是软件、硬件升级)，那么整个集群将无法使用，直到 ...
复制链接

扫一扫