zookeeper 灾难恢复机制

1: HDFS 的nameNode 出现问题, 单点问题。
https://issues.apache.org/jira/secure/attachment/12480378/NameNode+HA_v2.pdf
2: hdfs datanode 出现问题,将由hadoop hdfs 的集群解决
3: zookeeper出现问题,将由zookeeper的集群机制解决
4: hmaster出现问题.将由backup-masters中的一台backup-master按管hmaster.
由于master只维护表和region的元数据,而不参与表数据IO的过程,master下线仅导致所有元数据的修改被冻结(无法创建删除表,无法修改表的schema,无法进行region的负载均衡,无法处理region上下线,无法进行region的合并,唯一例外的是region的split可以正常进行,因为只有region server参与),表的数据读写还可以正常进行。因此master下线短时间内对整个hbase集群没有影响。从上线过程可以看到,master保存的信息全是可以冗余信息(都可以从系统其它地方收集到或者计算出来),因此,一般hbase集群中总是有一个master在提供服务,还有一个以上的’master’在等待时机抢占它的位置。
5: HregionServer 出现问题:
  5.1: 没有保存-ROOT-,和.META.的 HregionServer出现问题。 在zookeeper中代表自己的/hbase/rs/xxx的文件将会删除。hmaster侦听这个,得到这台hregionserver死了。然后查找.META.表,他管理那些table的region,重新把这些分配给活着的同事。同时通过master找到归这台机管的HLOG, 对这个hlog按region进行split,split后的hlog文件将由得到重新分配到region的hregionserver进行认领,认领之后装载到各个region的Memstore中,完成。
 5.2: 如果是存.META.的机出现问题,先查找-ROOT-表,看那些.META.的region分配在这台机上,先把这些region分配给正常的同志。.META.完全恢复后,再在.META.表中查在这强死机上是否还有其它region,有与5.1相同
 5.3: 保存-ROOT-表的那个region的hregionserver出了问题。master必须在活着同志找一台机,把他注册到/hbase/root-region-server,并按管-ROOT- hregionserver的责任,其它与5.2一致
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值