HDFS HA(Quorum Journal Manager) 架构解析

HDFS 集群介绍

      hdfs采用master-slave架构。集群中主要由NameNode、DataNode、Secondary NameNode、fsimage、editslog等5个部分组成。

      NameNode:存储hdfs中的元数据信息(如:命名空间、副本数、Blok块分布、文件名,文件大小,文件位置等),接收DataNode的心跳包和块报告,管理所有的DataNode节点,处理客户端提交的操作请求,对请求做安全检查。

      DataNode:将文件内容存储内部的Blok块中,定期向NameNode发送心跳包和块报告,接受Client端的调度。

      fsimage:存储NameNode一定时间内元数据的镜像文件(默认1小时生成一份)。

      editslog:存储NameNode操作的日志。

      Secondary NameNode:在指定时间点上将editslog与fsimage合并成一个新的fsimage文件。

在NameNode进程崩溃并重启时,会读取fsimage和editslog文件中的内容,用以恢复崩溃钱一刻的数据,这样就保证了数据的完整性。但是如果在崩溃时造成editslog文件损坏,或者磁盘损毁,就会造成数据丢失。因此便需要引入HA的概念了。

 

HA介绍

      在hadoop2.x版本中,hdsf最多只能存在两个NameNode。因此在HA中是存在两个NameNode的,并且一个NameNode处于active(活跃状态),一个NameNode处于standby状态。即同一时间只有一个NameNode是处于工作状态的。

      当active的NameNode出现故障时,如何启用standby的NameNode呢?

               1.手动切换,通过hdfs haadmin -transitionToActive <serviceId> ,将给定NameNode的状态转换为Active

               2.自动切换,要使用自动切换,则需要引入一个ZKFailoverController(ZKFC)的进程和ZooKeeper的一个组件。ZKFC定期执行健康检查命令,监控NameNode状态,并与zk建立长久回话,当active状态的NameNode发生故障时,zk进行选举,并通知对应ZKFC把NameNode由standby切换为active状态。

       NameNode之间是如何保持数据同步的?

                接受到Client的请求时NameNode先将日志写入editslog中,并将日志写入JournalNodes集群,Standby NameNode读取JournalNode集群中的日志,并进行操作重演。并且DataNode定期想两个NameNode发送心跳和块报告。以此保证了NameNode之间的数据同步。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值