lsm思想非常朴素,就是将对数据的更改hold在内存中,达到指定的threadhold后将该批更改批量写入到磁盘,在批量写入的过程中跟已经存在的数据做rollling merge。
拿update举个例子:
比如有1000万行数据,现在希望update table.a set addr=’new add’ where pk = ‘833’,
如果使用B-Tree类似的结构操作,就需要:
1、找到该条记录所在的page,
2、load page到内存(如果恰好该page已经在内存中,则省略该步)
3、如果page之前被修改过,则先flush page to disk
4、修改数据
上面的动作平均来说有两次disk I/O
如果采用lsm-tree类似结果,则:
1、将需要修改的数据直接写入内存,可见这里是没有disk I/O的。
这样的话读的时候就飞机了,需要merge disk上的数据和memory中的修改数据,这显然降低了读的性能。
所以选择lsm-tree有个假设,就是写入远大于读取的时候,lsm是很好的选择。更准确的描述是,优化了写,没有显著降低读。
因为大部分的时候我们都是要求读最新的数据,而最新的数据可能还在内存里面,即使不在内存里面,只要不是那些更新特别频繁的数据,其I/O次数也是有限的。而读可以采用缓存的方式进行优化。
综上所述:
lsm-tree比较适合的应用场景是:insert数据量大,读数据量和update数据量不高且读一般针对最新数据。