Hadoop HA架构即 Hadoop 高可用架构,7*24小时不中断服务。实现高可用最关键的是消除单点故障。Hadoop HA 严格来说应该分成各个组件的HA机制——HDFS的HA、YARN的HA。
在这里我还是要推荐下我自己建的大数据学习交流qq裙:522189307 , 裙 里都是学大数据开发的,如果你正在学习大数据 ,小编欢迎你加入,大家都是软件开发党,不定期分享干货(只有大数据开发相关的),包括我自己整理的一份最新的大数据进阶资料和高级开发教程,欢迎进阶中和进想深入大数据的小伙伴。上述资料加群可以领取
HDFS HA
NameNode与命名空间
HDFS是通过双namenode消除单点故障(实时的,任何时刻只有1台active对外,另外一台是standby 实时备份随时准备着从standby切换active状态,对外服务)。
而两个NameNode之间的切换实际上是无感知的,这就需要命名空间(命名空间并不是进程)。两个NameNode机器是挂在命名空间下的,这是在core-site.xml和hdfs-site.xml下配置的。
命名空间轮询两台机器,如果是standby,换另一台。
Zookeeper
ZK集群是用来做选举的,在HDFS HA架构中用来确定哪个NameNode做a