学习笔记(9-10章)
本博客内容基本整理自《Hbase原理与实践》一书。仅用于个人学习和积累。
1.宕机恢复原理
HBase系统中主要有两类服务进程:Master进程以及RegionServer进程。因此宕机异常也主要发生在这两个进程上。其中由于Master主要负责集群管理调度,在实际生产线上并没有非常大的压力,因此发生软件层面故障的概率非常低。
1.1.RegionServer宕机异常
- Full GC异常: 长时间的Full GC是导致RegionServer宕机的最主要原因,据不完全统计,80%以上的宕机原因都和JVM Full GC有关。
- HDFS异常: RegionServer写入读取数据都是直接操作HDFS的,如果HDFS发生异常会导致RegionServer直接宕机。
- 机器宕机: 物理节点直接宕机也是导致RegionServer进程挂掉的一个重要原因。通常情况下,物理机直接宕机的情况相对比较少,但虚拟云主机发生宕机的频率比较高。
- Hbase本身Bug。
1.2.Hbase故障恢复
1.2.1.Master故障恢复原理
HBase采用基本的热备方式来实现Master高可用。即在集群中至少启动两个Master进程。一个为Active Master,一个为Backup Master。