本文的内容主要参考了博文https://blog.csdn.net/wsdc0521/article/details/108400843
高可用架构--JournalNode
从HDFS的基础架构中(可以参考本系列另一篇文章HDFS--基本原理和基础组件)我们可以知道,NameNode时整个HDFS的管理者,一旦NameNode出现问题,整个集群将处于不可用状态。
因此在Hadoop2.x版本中加入了HDFS HA的特性,在典型的HA集群中,两台独立的机器被配置为NameNode。在工作集群中,NameNode机器中的一个处于Active状态,另一个处于Standby状态。Active NameNode负责群集中的所有客户端 操作,而Standby充当从服务器,Standby机器保持足够的状态以提供快速故障切换。
两个NameNode为了数据同步,会通过一组称作JournalNodes的独立进程进行相互通信。当Active 状态的NameNode的命名空间有任何修改时,会告知大部分的JournalNodes进程。Standby 状态的NameNode有能力读取JournalNodes中的变更信息,并且一直监控edit log的变化,把变化应用于自己的命名空间。Standby 可以确保在集群出错时,命名空间状态已经完全同步了 ,以此达到快速故障切换。
在HA架构下,SecondaryNameNode被JournalNode替代,实现两个NameNode之间的信息同步,由Zookeeper实现两个NameNode之间的高可用,相关的组件如下:
ZKFailoverController
是基于Zookeeper的故障转移控制器,它负责控制NameNode的主备切换,ZKFailoverController会监测NameNode的健康状态,当发现Active NameNode出现异常时会通过Zookeeper进行一次新的选举,完成Active和Standby状态的切换
HealthMonitor
周期性调用NameNode的HAServiceProtocol RPC接口(monitorHealth 和 getServiceStatus),监控NameNode的健康状态并向ZKFailoverController反馈;
ActiveStandbyEle