WAL和Memstore的意义
- WAL是存储在HDFS上的,Memstore是存储在内存中的,HFile又是存储在HDFS上的。
- 数据是先写入WAL,再被放入Memstore,最后被持久化到HFile中。
数据在进入HFile之前已经被存储到HDFS一次了,为什么还需要被放入Memstore ?
这是因为HDFS上的文件只能创建、追加、删除,但是不能修改。对于一个数据库来说,按顺序地存放数据是非常重要的,这是性能的保障,所以我们不能按照数据到来的顺序来写入硬盘。虽然很困难,但是办法还是有的。那就是使用内存先把数据整理成顺序存放,然后再一起写入硬盘。这就是Memstore存在的意义。虽然Memstore是存储在内存中的,HFile和WAL是存储在HDFS上的。但由于数据在写入Memstore之前,要先被写入WAL,所以增加Memstore的大小并不能加速写入速度。Memstore存在的意义是维持数据按照rowkey顺序排列,而不是做一个缓存。
数据被写入WAL之后就会被加载到MemStore中去。MemStore的大小增加到超过一定阀值的时候就会被刷写到HDFS上,以HFile的形式被持久化起来。
Memstore的意义
(1)由于HDFS上的文件不可修改,为了让数据顺序存储从而提高读取效率,HBase使用了LSM树结构来存储数据。数据会先在Memstore中整理成LSM树,最后再刷写到HFile上。不过不要想当然地认为读取也是先读取Memstore再读取磁盘!读取的时候是有专门的缓存叫BlockCache,这个BlockCache如果开启了,就是先读BlockCache,