下面是HBase的系统架构
从上图可以看出:Client访问hbase上的数据的过程并不需要Master参与(寻址访问Zookeeper和Region Server,数据读写访问Region Server)。HMaster仅仅维护Table和Region的元数据信息,Table的元数据信息保存在Zookeeper上,负载很低。HRegion Server存取一个子表时,会创建一个HRegion 对象,然后对表的每个列簇创建一个Store对象,每个Store都会有一个MemSotre和0或多个StoreFile与之对应,每个MemStore都会对应一个HFile,HFile就是实际的存储文件。因此一个HRegion有多少列簇就有
多少个Store,一个HRegionServer会有多个HRegion和一个HLog。
Client
- 包含访问hbase的接口,client 维护者一些cache来加快对hbase的访问,比如Region的位置信息。
Zookeeper
- 通过选举,保证任何时候集群中只有一个master,master与Region Server启动时会向Zookeeper注册。
- 存储所有Region的寻址入口。
- 实时监控Region Server的状态,将Region Server的上线和下线信息实时通知给master。
- 存储hbase的schema,包括有哪些表,每个表有哪些列族。
- 默认情况下,hbase管理Zookeeper实例,比如启动和停止Zookeeper。
Master
- Master负责管理Table(DDL)和Region,它的主要职责
- 维护table和region的元数据信息,包括表的增删改查
- 负责Region Server的负载均衡
- 如果一个Region Server宕机或进程故障,由master负责将它原来所负责的Region转移到其他的Region Server上继续提供服务。
- HDFS上的垃圾文件回收
- 处理schema的更新请求
Region Server
Region Server是数据服务节点,负责处理数据读写(DML)请求,它的主要职责如下:
- 维护master分配给它的Region ,处理对这些Region的I/O请求。
- 负责切分在运行过程中变得过大的Region。
HRegion
Table在行的方向上分割为多个HRegion,HRegion是hbase中分布式存储和负载均衡的最小单元,即不同的HRegion可以分别在不同的HRegionServer上,但是同一个HRegion 是不会拆分到多个HRegionServer上的。HRegion按大小分割,每个表一般只有一个HRegion,随着数据不断插入表,HRegion不断增大,当HRegion 的列簇达到一个阀值(默认256M)时集合分成量新的HRegion。
Store
每一个region有一个或多个store组成,至少是一个store,hbase会把一起访问的数据放在一个store里面,即为每个ColumnFamily 建一个store,如果有几个ColumnFamily,也就有几个store。一个store由一个memstore和0或多个storefile组成。
hbase以store的大小来判断是否需要切分region。
MemStore
MemStore是放在内存中的,保存修改的数据(即keyValues),当MemStore的大小达到一个阀值(默认64M)时,MemStore会被flush到文件,即生成一个快照。目前Hbase会有一个线程来负责MemStore的flush操作。
StoreFile
MemStore内存中的数据写到文件后就是StoreFile,StoreFile底层是以HFile的格式保存。
HFile
HFile 分为六个部分:
- Data Block段:保存表中的数据,这部分可以被压缩。
- Meta Block段(可选的):保存用户自定义的键值对,可以被压缩。
- File Info段:HFile的元信息,不被压缩,用户也可以在这一部分添加自己的元信息。
- Data Block Index段:Data Block的索引,每条索引的key是被索引的Block的第一条记录的key。采用LRU机制淘汰。
- Meta Block Index(可选的):Meta Block的索引。
- Trailer段:这一段是定长的,保存了每一段的偏移量。
读取一个HFile时,会首先读取Trailer,Trailer保存了每个段的起始位置(段的Magic Number用来做安全检查);然后,Data Block Index会被读取到内存中,这样,当检索到某个key时,不需要扫描整个HFile,只需要从内存中找到key所在的Block,通过一次磁盘io将整个Block读取到内存中,再找到所需要的key。
HFile的Data Block,Meta Block通常采用压缩方式存储,压缩之后可以大大减少网络IO和磁盘IO,相应的需要花费CPU进行压缩和解压缩。
目前HFile的压缩支持两种方式:Gzip和Lzo。
HLog(WAL Log), WAL(write ahead log)用来做灾难恢复使用,HLog记录数据的所有变更,一旦Region Server宕机,就可以
从log中进行恢复。
每个Region Server维护一个Hlog,而不是每个Region一个。这样不同Region(来自不同表)的日志会混在一起,这样做的目的是不断追加单个文件相对于同时写多个文件而言,可以减少磁盘寻址次数,因此可以提高对表的写性能。带来的麻烦是,如果一台Region Server下线,为了恢复其上的Region,需要将Region Server上的log进行拆分,然后分发到其它Region Server上进行恢复。
HLog 文件定期会滚动出新的,并删除旧的文件(已持久化到StoreFile 中的数据)。当HRegionServer 意外终止后,HMaster 会通过Zookeeper 感知到,HMaster 首先会处理遗留的HLog 文件,将其中不同Region 的Log 数据进行拆分,分别放到相应region 的目录下,然后再将失效的region 重新分配,领取到这些region 的HRegionServer 在Load Region 的过程中,会发现有历史HLog 需要处理,因此会Replay HLog 中的数据到MemStore 中,然后flush 到StoreFiles,完成数据恢复。
HLog文件就是一个普通的Hadoop Sequence File,Sequence File 的Key是HLogKey对象,HLogKey中记录了写入数据的归属信息,除了table和region名字外,同时还包括 sequence number和timestamp,timestamp是”写入时间”,sequence number的起始值为0,或者是最近一次存入文件系统中sequence number。HLog Sequece File的Value是HBase的KeyValue对象,即对应HFile中的KeyValue。