leveldb为什么这么快

最新推荐文章于 2024-08-19 09:33:21 发布

dongfuye

最新推荐文章于 2024-08-19 09:33:21 发布

阅读量3.3k

点赞数

分类专栏： C++ 文章标签： nosql数据库数据库存储 c++ bloom filter

本文链接：https://blog.csdn.net/dongfuye/article/details/46816453

版权

C++ 专栏收录该内容

11 篇文章 0 订阅

订阅专栏

nosql数据库大多采用leveldb或者类似leveldb的存储引擎，我们来看看它为什么能够这么快。

levelDB则采用了一种全新的数据结构，叫做log structured merge tree(LSMT)，写入数据时，一方面会把数据保存到内存，另一方面写入到日志，防止down机导致数据丢失。内存中的数据是排好序的，当内存中的数据达到一定阈值时，把内存中的数据保存到磁盘，并且把第一次写出的文件放到level 0。当level0的数据文件数量较多时，就对所有的level0和level1(初始为空)的数据进行一次归并排序并把结果放在level1。当level1的文件较多，每次合并level0和level1就会涉及大量的文件，因此会合并level1和level2的文件，结果放在level2，levelDB中，level n的数据量是level n-1的10倍。

进行写操作时，传统数据库使用索引，需要维护索引会产生较多的随机写。而leveldb则是写日志，把内存数据写出，归并文件，全部是顺序写，因此特别适合传统磁盘。

进行读操作室，传统数据库需要在索引中从根节点找到叶节点，产生较多的随机读。而leveldb则是从已经排好序的文件中读取数据，虽然需要读取每一层，因为层内的数据是排好序的，而层之间则没有排序关系。level 0特殊处理，该层中，每个文件内部排好序，不同文件没有序列关系，因此需要读取该层所有文件。那么一次读取就需要读取多个文件（一般是7-10个文件）才能够获取到数据。这时bloom filter派上了大用场，它为每条记录的key在内存中保持几个比特，通过这些数据，如果一个key不在文件中，leveldb能够快速判断出来。这样，虽然一次读取会变成多个读取，但这些读取因为bloom filter又缩减为接近一个磁盘读取。

上面的分析可以看出，传统数据库在存取数据时需要多个IO操作，而levelDB通过对数据进行排序，摆脱了对索引的依赖；通过顺序写，可以达到一个写保存多条数据的效果；通过bloom filter达到一次读只需一个IO操作的目标。