写机制
执行写入时会写到两个地方:write ahead log 和 MemStore,保证数据的持久化。
MemStore是内存中的写入缓冲区,数据在永久写入硬盘前在此积累,当其填满时(可以由hbase.hregion.memstore.flush.size
定义),数据会被刷写到硬盘,生成一个HFile。
在集群的每一个节点上,每个列族都有一个MemStore
由于MemStore是在内存中的,具有易失性,所以还需要WAL。
每台服务器维护一个WAL来记录发生的变化。如果服务器宕机,没有从MemStore刷写到硬盘的数据可以通过回放WAL来恢复
读机制
类似于MemStore,HBase在读的时候也维护一个内存的缓存区,基于LRU算法的BlockCache,用来保存从HFile里读入内存的频繁访问的数据。它和MemStore在同一个JVM堆里,所以类似的,每个列族都有一个BlockCache
Block是HBase从硬盘完成一次读取的数据单位,类似于操作系统中文件系统的block。
HFile的物理存放模式是:一个Block的序列 + 这些block的索引。所以,从HFile读取一个Block时需要先在索引上查找一次该block然后从硬盘读出。
block大小是可设置的。
- 对于主要用于随机访问,可采用细粒度的block,这样索引表变大,但是数据传输量变小。
- 对于主要用于顺序扫描&#