Hbase架构图镇楼:
HBase读数据的流程:
- HRegionServer保存着meta表以及表数据,要访问表数据,首先Client先去访问zookeeper,从zookeeper里面获取meta表所在的位置信息,即找到这个meta表在哪个HRegionServer上保存着。
- 接着Client通过刚才获取到的HRegionServer的IP来访问Meta表所在的HRegionServer,从而读取到Meta,进而获取到Meta表中存放的元数据。
- Client通过元数据中存储的信息,访问对应的HRegionServer,然后扫描所在HRegionServer的Memstore和Storefile来查询数据。
- 最后HRegionServer把查询到的数据响应给Client。
HBase写数据的流程:
- Client首先访问zookeeper,找到Meta表,并获取Meta表中元数据。确定当前将要写入的数据所对应的HRegion和HRegionServer服务器。
- Client向该HRegionServer服务器发起写入数据请求,然后HRegionServer收到请求并响应。然后先把数据写入到HLog,以防止数据丢失。
- 最后将数据写入到Memstore。
其实如果HLog和Memstore均写入成功,则这条记录便算写入成功了。Memstore会在满足以下情况的前提下将数据一次性flush到Storefile中:
- Memstore写满(128M)
- HLog中的记录数达到默认值32
- Memstore占用内存达到总内存的40%
在HBase中需要注意下面三个临界点合并或拆分文件:
- 第一个就是上面的memstore的flush机制,如果Memstore达到阈值,会把Memstore中的数据flush到Storefile中。
- 当Storefile越来越多,会触发Compact合并操作,把过多的Storefile合并成一个大的Storefile。
- 当Storefile越来越大,Region也会越来越大,达到阈值后,会触发split操作,将Region一分为二。