生动形象的解释下高效索引算法（以LSM-Tree为代表）是如何在大数据时代实现“单机千万级KEY写入+磁盘顺序写/块读写”的

最新推荐文章于 2025-05-07 02:05:24 发布

你一身傲骨怎能输

最新推荐文章于 2025-05-07 02:05:24 发布

阅读量535

点赞数 4

分类专栏：数据结构与算法文章标签： lsm-tree 大数据

本文链接：https://blog.csdn.net/qq_33060405/article/details/147750628

版权

76 篇文章

订阅专栏

我们用一个生活化的比喻，让你一听就懂LSM-Tree这类高效索引算法是怎么做到“单机千万级KEY写入+磁盘顺序写/块读写”的。

想象你是一个快递仓库的管理员，每秒有上千万个包裹（KEY-VALUE）要登记入库。仓库的地板（磁盘）只能推着小车沿着一条直路走（顺序写），不能来回乱跑（随机写很慢）。老板还要求，随时能查到某个包裹的存放位置（高效查询）。

如果你每来一个包裹都要在仓库里找个空位插进去（像B+树那样），你就得在仓库里来回跑，效率极低，地板（磁盘）也很快就被踩坏了。

每来一个包裹，先在前台的本子（内存表）上记一笔，速度极快。

同时在流水账（写前日志）上顺序记一笔，防止断电丢数据。

本子写满后，把所有包裹按顺序装进一个大箱子（SSTable），推到仓库的顺着路走（磁盘顺序写），一次性存好。

后台有保洁阿姨（合并线程）定期把多个小箱子合并成大箱子，把重复和过期的包裹清理掉，仓库永远整洁高效。

LSM-Tree就像一个超级快递仓库，所有包裹先在前台登记，攒一批后顺着路推车入库，后台定期整理，查找时有目录和小纸条帮忙，既能极速写入，又能高效查询，磁盘性能用到极致！

我们继续用生动形象的方式，把LSM-Tree实现高效写入和查询的“幕后细节”讲得更透彻一点。

比喻：
你不是每来一个包裹就跑去仓库找地方，而是先在前台本子上记下来，等本子写满了，一次性把一大堆包裹装箱，推到仓库里顺着路放好。
技术点：
- 内存表（MemTable）负责接收所有新写入，写入速度极快。
- 写前日志（WAL）保证数据安全，也只做顺序写。
- 内存表满了后，批量、顺序地刷到磁盘（SSTable），磁盘顺序写速度能达到硬件极限。

比喻：
查包裹时，先看前台本子（内存），找不到再查最新的箱子，再查更老的箱子。每个箱子外面贴着“有无此包裹”的小纸条（BloomFilter），能快速排除大部分箱子。
技术点：
- 查询先查MemTable，再查一系列SSTable文件。
- 每个SSTable有BloomFilter，能快速判断KEY是否存在，99%情况下不用打开文件。
- SSTable内部有稀疏索引，能快速定位KEY在文件中的位置。