全称 Log-Structured Merge-Tree 日志结构合并树,但不是树,它是利用了磁盘顺序读写能力,实现了一个多层的存储结构
这篇文档讲的非常简单清晰,适合入门 https://zhuanlan.zhihu.com/p/378370316
LSM算法的几个核心步骤:
- 在于数据写入存储系统前首先记录日志,防止系统崩溃
- 记录完日志后在内存中以供使用,当内存达到极限后写入磁盘,记录合并次数Level为0(L=0)。已经写入-磁盘的文件不可变。
- 每过一段时间将磁盘上L和L+1的文件合并
这两篇文档讲解就非常详尽,适合深入
- https://blog.csdn.net/weixin_45505313/article/details/107556438
- 【翻译】Log Structured Merge Trees(日志结构化合并树)
- 讲到从传统数据库的背景开始,B树等这些方式都将总体的结构信息强加在了数据上,数据必须按照特定的方式存储,当需要保存数据到磁盘时就有一个明显的缺陷,逻辑上相距很近的数据在物理上却可能相隔很远,这就可能造成大量的磁盘随机写,严重影响写操作性能。
- 以 B-Tree 的一个随机写操作为例,整个过程分两步进行,对于随机 key 的写操作平均需要两次 IO
1)从磁盘查找目标 key 应该存储的块节点并加载到内存
2)修改目标节点内容再将其写回磁盘 - 基于磁盘随机操作慢,顺序读写快的特性,如果要提高写操作性能,最好避免随机写,设计成顺序写。在高性能读操作与高性能写操作不可兼得的情况下,需要面对不同的场景做出取舍,而 Log-Structured Merge-Tree 就是一个权衡的产物
- 日志化结构合并树(Log-Structured Merge-Tree)是一种分层、有序、面向磁盘的数据结构,其核心思想是充分利用磁盘批量的顺序写远比随机写高效的特性,放弃部分读效率换取最大化的写操作效率.我们知道最大化发挥磁盘特性的使用方式是一次性地读取或写入固定大小的一块数据,并尽可能地减少随机寻道操作。
- 以 B-Tree 的一个随机写操作为例,整个过程分两步进行,对于随机 key 的写操作平均需要两次 IO