HDFS高可用性分布式环境搭建

最新推荐文章于 2023-05-16 19:39:06 发布

醉饮红尘520

最新推荐文章于 2023-05-16 19:39:06 发布

阅读量313

点赞数

分类专栏：大数据技术

本文链接：https://blog.csdn.net/qq_41609775/article/details/100577756

版权

大数据技术专栏收录该内容

7 篇文章 0 订阅

订阅专栏

1.HDFS高可用简介

在 Hadoop 1.X版本中，NameNode是整个HDFS集群的单点故障（single point of failure，SPOF）：每一个HDFS集群只能有一个NameNode节点，一旦NameNode所在服务器宕机或者出现故障将导致整个集群都不可用，除非重启或者开启一个新的Namenode集群才能够恢复可用。NameNode单点故障对HDFS集群的可用性产生影响主要表现在以下两种情况：

当NameNode所在服务器发生未知的异常（例如：服务器宕机）时，在NameNode被重新启动之前整个集群都将不可用。
当NameNode所在服务器执行某些日常维护任务（例如：软件或硬件升级）后重启服务器时，同样会导致HDFS集群在一段时间内不可用。

在Hadoop 2.X 版本中，HDFS引入了双NameNode架构，HA（High Available）通过将两个NameNode分别配置为Active/Passive状态来解决上述问题。处于Active状态的NameNode叫作Active Namenode，处于Passive状态的NameNode叫作Standby Namenode。 Standby Namenode作为Active Namenode的热备份，能够在NameNode发生故障或者由于日常服务器维护需要重启的时候以一种优雅的方式自动切换为Active Namenode。

Active Namenode处理客户端所有的操作请求（读写），Standby Namenode只是作为Active Namenode的Slave尽可能地与Active Namenode保持状态同步，使得在Active Namenode故障时能够快速完成切换。为了使Standby Namenode与Active Namenode数据保持同步，两个Namenode都需要与一组Journal Node进行通信。当Active Namenode执行的任务对namespace有所更改时，会确保将修改日志持久到Journal Node节点中的大部分。Standby Namenode持续监控这些Journal Node，当监测发现这些修改日志有变化时，就会将这些修改应用到自己的namespace，进而保持与Active Namenode中namespace元数据保持一致。

当进行故障转移时，Standby Namenode在成为Active Namenode之前，会确保自己已经读取了Journal Node中的所有修改日志，从而保持数据状态与故障发生前一致。为了确保故障转移能够快速完成，Standby Namenode需要维护最新的Block位置信息，即每个Block副本存放在集群中的哪些节点上。为了达到这一点，Datanode同时配置主备两个Namenode，并同时发送Block报告和心跳到两台Namenode。任何时候只有一个Namenode处于活动状态对HA集群来说至关重要，否则可能出现数据丢失或者数据损坏。当两台Namenode都认为自己的Active Namenode时，会同时尝试写入数据（不会再去检测和同步数据）导致所谓的“裂脑现象”出现。为了达到这个目的并避免出现“裂脑现象”，管理员必须为共享存储配置至少一个（fencing）方法。在宕机期间，如果确定了之前的Active Namenode已经放弃活动状态，fencing进程将负责中断之前的Active Namenode对共享存储的访问和编辑，从而防止它继续对命名空间做出任何进一步的修改，使新的活动节点能够安全地进行故障转移。
在这里插入图片描述