在学习的时候看到这样一段话:
因为所有的存储文件都是不可变的,所以就没法直接将一个值从它们里面删除,也没法对某个值进行覆盖。而只能通过写入一个墓碑式的标记,来代表某个cell或者某几个cell或者是整行都被删除了。
我就想,如果一直不删除岂不是很浪费存储空间。因为storefile是一般不可变的,但是compaction时,是否会筛选掉那些带有墓碑式标记的cell或行。为了验证我的想法,我搜了一下。找到了这样一段话。
Hbase的删除操作是不会立即删除实际数据的,而是在compaction发生的时候才会实际删除数据,在执行get或scan操作的时候,hbase实际上是将数据取出后看是否该row存在删除操作,合并了这些操作后,被你删除的数据,在HDFS上虽然还存在,但实际上你是无法get到的。在compaction之后,这些数据将会彻底消失。
最小的访问单元就是HFile中的一个block。