lsm-tree

最新推荐文章于 2024-07-26 09:47:36 发布

青箫

最新推荐文章于 2024-07-26 09:47:36 发布

阅读量595

点赞数

分类专栏：数据库结构逻辑思维

本文链接：https://blog.csdn.net/sharon_1987/article/details/51089271

版权

数据库结构同时被 2 个专栏收录

23 篇文章 0 订阅

订阅专栏

逻辑思维

12 篇文章 0 订阅

订阅专栏

lsm思想非常朴素，就是将对数据的更改hold在内存中，达到指定的threadhold后将该批更改批量写入到磁盘，在批量写入的过程中跟已经存在的数据做rollling merge。

拿update举个例子：
比如有1000万行数据，现在希望update table.a set addr=’new add’ where pk = ‘833’,

如果使用B-Tree类似的结构操作，就需要：
1、找到该条记录所在的page，
2、load page到内存（如果恰好该page已经在内存中，则省略该步）
3、如果page之前被修改过，则先flush page to disk
4、修改数据

上面的动作平均来说有两次disk I/O
如果采用lsm-tree类似结果，则：
1、将需要修改的数据直接写入内存，可见这里是没有disk I/O的。
这样的话读的时候就飞机了，需要merge disk上的数据和memory中的修改数据，这显然降低了读的性能。

所以选择lsm-tree有个假设，就是写入远大于读取的时候，lsm是很好的选择。更准确的描述是，优化了写，没有显著降低读。
因为大部分的时候我们都是要求读最新的数据，而最新的数据可能还在内存里面，即使不在内存里面，只要不是那些更新特别频繁的数据，其I/O次数也是有限的。而读可以采用缓存的方式进行优化。

综上所述：
lsm-tree比较适合的应用场景是：insert数据量大，读数据量和update数据量不高且读一般针对最新数据。