zookeeper 灾难恢复机制

最新推荐文章于 2024-08-11 01:50:51 发布

keep_moving_

最新推荐文章于 2024-08-11 01:50:51 发布

阅读量2.3k

点赞数

分类专栏： zookeeper

本文链接：https://blog.csdn.net/u013777684/article/details/37907275

版权

zookeeper 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

1: HDFS 的nameNode 出现问题，单点问题。
https://issues.apache.org/jira/secure/attachment/12480378/NameNode+HA_v2.pdf
2: hdfs datanode 出现问题，将由hadoop hdfs 的集群解决
3: zookeeper出现问题，将由zookeeper的集群机制解决
4: hmaster出现问题.将由backup-masters中的一台backup-master按管hmaster.
由于master只维护表和region的元数据，而不参与表数据IO的过程，master下线仅导致所有元数据的修改被冻结(无法创建删除表，无法修改表的schema，无法进行region的负载均衡，无法处理region上下线，无法进行region的合并，唯一例外的是region的split可以正常进行，因为只有region server参与)，表的数据读写还可以正常进行。因此master下线短时间内对整个hbase集群没有影响。从上线过程可以看到，master保存的信息全是可以冗余信息（都可以从系统其它地方收集到或者计算出来），因此，一般hbase集群中总是有一个master在提供服务，还有一个以上的’master’在等待时机抢占它的位置。
5: HregionServer 出现问题:
5.1: 没有保存-ROOT-,和.META.的 HregionServer出现问题。在zookeeper中代表自己的/hbase/rs/xxx的文件将会删除。hmaster侦听这个，得到这台hregionserver死了。然后查找.META.表，他管理那些table的region,重新把这些分配给活着的同事。同时通过master找到归这台机管的HLOG, 对这个hlog按region进行split,split后的hlog文件将由得到重新分配到region的hregionserver进行认领，认领之后装载到各个region的Memstore中，完成。
5.2: 如果是存.META.的机出现问题,先查找-ROOT-表，看那些.META.的region分配在这台机上,先把这些region分配给正常的同志。.META.完全恢复后，再在.META.表中查在这强死机上是否还有其它region,有与5.1相同
5.3: 保存-ROOT-表的那个region的hregionserver出了问题。master必须在活着同志找一台机，把他注册到/hbase/root-region-server,并按管-ROOT- hregionserver的责任，其它与5.2一致