了解数据库中常用存储引擎数据结构（4）-CSDN博客

本文链接：https://blog.csdn.net/qq_45956730/article/details/141233669

深入了解LSM树及其发展

LSM Tree 的概念起源于 1996年的论文《The Log Structure Merge Tree》，此后由 Google Bigtable 第一个商业化实现并于 2006 年发表论文《Bigtable：A distributed strorage system for structured data》。

随后，Google 的两位专家基于 BigTable 的经验实现了 LevelDB，一个单机 LSM Tree 存储引擎，并开源。

此后，FaceBook 基于 LevelDB 开发了 RocksDB（非常棒的 KV 数据库，非常值得学习！）！

RocksDB 做了相当多的迭代演进，如：多线程、Column Family（类似于关系型数据库中表的概念）、Compaction策略等。

目前，RocksDB 已经成为 LSM Tree 领域的一个事实标准！

RocksDB 的结构图：

写入的数据首先要记录 WAL（Write-ahead Log），用来做实时落盘，以实现持久性。
随后，数据有序的写入 Active Memtable 中；同时，Active Memtable 也是这里唯一可变的结构！在一个 Active Memtable 写满后，就把它转换为 Immutable Memtable。
- 上面两类 Memtable 都在内存中，使用的数据结构基本上是跳跃表（也有vector、hash-skiplist等）
当 Immutable Memtable 达到指定的数量后，就将 Immutable Memtable 落盘到磁盘中的 L0 层-----这步操作被称为 minor merge。
- 通常，对于 minor merge 的 Memtable 不做整理（无 Compaction 过程），直接刷入磁盘。因此，L0 层可能会存在重复的数据。
当 L0 层的数据满了之后，就会触发 major merge，也就是关键的 Compaction 操作。
- 将 L0 层的数据和 L1 层的数据进行合并，全部整理为 “固定大小的、不可变的数据块”，称为 SSTable（Sorted String Table），并放在 L1 层。
- 这样，除了 L0 层之外的磁盘中的每一层都是由一个个 SST 组成的，这些 SST 之间互不重叠！
- SST 的出现结合后文会讲到的的 Bloom Filter，在很大程度上提升了 LSM Tree 的读性能！
- 并且，L1 和之后层次间的合并，可以仅合并部分重叠的 SST，使 Compaction 过程更加灵活、效率更高。

SSTable 是由 LevelDB 最初实现的一种数据格式，被称为 Sorted String Table（有序字符串表）。

一个 SST 通常由两个部分组成：

索引文件：可以是 BTree 或者哈希表
数据文件：就是要存储的 KV 数据

可以将 SST 理解为一个小型的聚簇索引结构，只是这个结构整体是不可变的！

一条数据的整体写入过程

一条数据进入到 LSM Tree 后会：

首先写入 active memtable，然后进入 immutable memtable，接下来被刷入 L0 层，然后随着 Compaction 操作一层层向下。
这个过程如果碰到了更下层的同 key 数据，那么就会将对方合并。
如果在 Compaction 过程中遇到了从更高层来的同 key 新的数据，那么就会被合并。