HBase故障恢复基本原理

最新推荐文章于 2023-07-23 08:40:18 发布

有数的编程笔记

最新推荐文章于 2023-07-23 08:40:18 发布

阅读量931

点赞数

分类专栏： HBase

本文链接：https://blog.csdn.net/qq_33446500/article/details/105646074

版权

HBase 专栏收录该内容

24 篇文章 6 订阅

订阅专栏

Master故障恢复原理

在HBase体系结构中，Master主要负责实现集群的负载均衡和读写调度，并没有直接参与用户的请求，所以整体负载并不很高。

HBase采用基本的热备方式来实现Master高可用。通常情况下要求集群中至少启动两个Master进程，进程启动之后会到ZooKeeper上的Master节点进行注册，注册成功后会成为ActiveMaster，其他在Master节点未注册成功的进程会到另一个节点Backup-Masters节点进行注册，并持续关注Active Master的情况，一旦Active Master发生宕机，这些Backup-Masters就会立刻得到通知，它们再次竞争注册Master节点，注册成功就可成为Active Master。

一方面，Active Master会接管整个系统的元数据管理任务，包括管理ZooKeeper以及meta表中的元数据，并根据元数据决定集群是否需要执行负载均衡操作等。另一方面，Active Master会响应用户的各种管理命令，包括创建、删除、修改表，move、merge region等命令。

RegionServer故障恢复原理

一旦RegionServer发生宕机，HBase会马上检测到这种宕机，并且在检测到宕机之后将宕机RegionServer上的所有Region重新分配到集群中其他正常的RegionServer上，再根据HLog进行丢失数据恢复，恢复完成之后就可以对外提供服务。整个过程都是自动完成的，并不需要人工介入。基本原理如下图所示。

1）Master检测到RegionServer宕机。HBase检测宕机是通过ZooKeeper实现的，正常情况下RegionServer会周期性向ZooKeeper发送心跳，一旦发生宕机，心跳就会停止，超过一定时间（SessionTimeout）ZooKeeper就会认为RegionServer宕机离线，并将该消息通知给Master。

2）切分未持久化数据的HLog日志。RegionServer宕机之后已经写入MemStore但还没有持久化到文件的这部分数据必然会丢失，HBase提供了WAL机制来保证数据的可靠性，可以使用HLog进行恢复补救。HLog中所有Region的数据都混合存储在同一个文件中，为了使这些数据能够按照Region进行组织回放，需要将HLog日志进行切分再合并，同一个Region的数据最终合并在一起，方便后续按照Region进行数据恢复。

3）Master重新分配宕机RegionServer上的Region。RegionServer宕机之后，该RegionServer上的Region实际上处于不可用状态，所有路由到这些Region上的请求都会返回异常。但这种情况是短暂的，因为Master会将这些不可用的Region重新分配到其他RegionServer上，但此时这些Region还并没有上线，因为之前存储在MemStore中还没有落盘的数据需要回放。

4）回放HLog日志补救数据。第3步中宕机RegionServer上的Region会被分配到其他RegionServer上，此时需要等待数据回放。第2步中提到HLog已经按照Region将日志数据进行了切分再合并，针对指定的Region，将对应的HLog数据进行回放，就可以完成丢失数据的补救工作。

5）恢复完成，对外提供服务。数据补救完成之后，可以对外提供读写服务

有数的编程笔记

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
1
评论
HBase故障恢复基本原理

Master故障恢复原理在HBase体系结构中，Master主要负责实现集群的负载均衡和读写调度，并没有直接参与用户的请求，所以整体负载并不很高。HBase采用基本的热备方式来实现Master高可用。通常情况下要求集群中至少启动两个Master进程，进程启动之后会到ZooKeeper上的Master节点进行注册，注册成功后会成为ActiveMaster，其他在Master节点未注册成功的进...
复制链接

扫一扫