- Zookeeper原理介绍
Zookeeper是一个开放源码的分布式集群协调器,主要用于解决分布式应用中的统一命名服务、状态同步服务、集群管理、配置项管理等问题。HBase安装包中含有内置ZooKeeper,也可以使用独立安装的ZooKeeper。主要有如下作用:
- 解决HMaster的单点故障问题: Hbase中可以启动多达10个HMaster,通过ZooKeeper的Master Election机制保证任何时刻只有一个HMaster在运行。
- 解决实时监控HRegionServer在线问题:HRegionServer的上、下线信息并及时通知HMaster,若有HRegionServer崩溃可以通过ZooKeeper来进行分配协调。
- 解决快速Region寻址问题:ZooKeeper中存储了-ROOT-表的地址、HMaster的地址、HRegionServer地址、HBase的Schema和表的元数据,当Client连接到HBase时,需要首先访问ZooKeeper以获取这些核心数据。
- 元数据的原理介绍
用户表被按行键分隔成不同的HRegion来保存,用户表的HRegion元数据被存储在.META表中,该表在HBase中也以HRegion的形式来进行存储。随着.META表中增多后,它也会被拆分成多个HRegion来保存,.META表中各个HRegion ID及其映射信息组成了HBase的-ROOT表,由ZooKeeper来记录-ROOT表的位置信息。-ROOT表永远不会被分割且只有一个HRegion,这样可以保证经过三次跳转就可以定位到任意一个HRegion:客户端访问用户数据时,首先访问ZooKeeper获得-ROOT表的位置,然后访问-ROOT表获得.META表的位置,最后根据.META表中的信息确定用户数据存放的位置。