leveldb源码分析(二)leveldb数据结构

1、skiplist

跳跃表是一种O(logN)插入和查找操作的数据结构,和红黑树类似,优点是实现简单,易于理解。levedb使用的跳跃表在一般跳跃表的基础上做了一些改造,特点如下:

  • 内部没有同步机制,写操作需要调用者同步,读操作可并发,写不阻塞读,读者可能丢失同时进行的写,但是不会读取不一致数据
  • 相同的key只允许插入一次
  • 不提供删除操作,数据插入后不允许修改内容
  • 支持用户定制比较器用于key的比较

skiplist内存管理

skiplist使用arena管理内存,目的是缩减小内存的申请次数以优化性能。arena内部使用vector管理内存块,内存块默认大小为4096字节,当前块内足够分配时在当前块内分配,否则申请新块。用户类型T插入skiplist时,skiplist在arena中分配内存,在这段内存地址上定位构造T(要求T可以拷贝构造)。由于arena不记录每次T的起始地址,因此无法做析构,要求T析构函数中无处理。skiplist析构时,arena析构释放内存。

源码地址:db/skiplist.h util/arena.h util/arena.cc

2、slice

slice是leveldb使用的字符串表示

源码位置:include/leveldb/slice.h

特点:

  • 维护二进制安全的字符串
  • slice不管理字符串生命周期
  • leveldb中使用字符串的地方多用slice做传递,原因是开销低
  • 提供和string、char*之间方便的转换接口

slice结构很简单如下:

slice

1

2

3

4

class Slice {

    const char *data_;

    size_t size_;

}; 

 

3、varint

varint是一种紧凑数字表示法,针对小int较多的情况,能有效减少存储占用。

原理是,标准int固定4个字节,对一些小数字,高位bit实际上全是0,也占用全部的4个字节,浪费了空间。varint通过编码到原始数据的方法压缩int的大小,最终形成的变量大小从1字节到5字节不等。方法是,针对每个8bit,高位1个bit用作标记位,7位低bit用作实际数据存储。高位为0表示数据到这个字节终止,高位为1表示下个字节仍然是这个数据的一部分需要继续读取。

例如:

十进制数字10,varint编码后二进制为00000010,即高位的0 + 低位的0000010,只占用一个字节。

十进制数字200,原始二进制为11001000,编码后二进制为

低              高

11001000 00000001

占用两个字节。解码时,读到第一个字节的高位为1表示需要继续读下一个字节,取本字节低7位bit待用。读下个字节高位为0,表示到这里终止了,取出第二个字节的低位7个bit,然后将两个字节中获取到的2个7bit拼接到一起,即00000011001000,还原得到原始的200。

需要注意的是,由于在原始数据中增加了标记位,因此会导致最大增加4个bit,导致占用字节达到5个字节,对于一些超过28位的大int,会多使用一个字节,如果这种大int占比例大,那么会导致varint的压缩效果反而差了。基于对leveldb中使用int情况的观察,使用varint有正收益。

以上是对varint32的描述,leveldb同时支持varint64,原理相同,编码后长度为1至10字节

代码位置:util/coding.h util/coding.cc

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
要阅读Leveldb源码,你可以按照以下步骤进行: 1. 确保你对C++语言有基本的了解。Leveldb是用C++编写的,因此你需要熟悉C++的语法和面向对象编程的概念。 2. 阅读Leveldb的README文件。这个文件提供了关于Leveldb的基本信息,如其用途、功能和性能特征。同时,它还列出了Leveldb的依赖关系,这对于理解源码以及构建和运行Leveldb非常重要。 3. 了解Leveldb的核心概念和数据结构Leveldb是一个高效的键值存储库,它使用了一些关键的数据结构,如有序字符串表(Skip List)和持久化存储。 4. 查看Leveldb的目录结构。Leveldb源码包含了一些核心文件和目录,如“db”目录下的文件是Leveldb的核心实现。理解源码的组织结构可以帮助你快速找到感兴趣的部分。 5. 阅读核心文件的源码。从“db/db_impl.cc”文件开始,这个文件是Leveldb的主要实现。阅读这个文件可以帮助你了解Leveldb如何管理内存、实施并发控制和实现持久化存储。 6. 跟踪函数调用和数据流。了解Leveldb的主要功能是如何通过函数调用进行实现的很重要。你可以使用调试器或添加日志输出来跟踪函数调用和数据流,这有助于你了解代码的执行流程和逻辑。 7. 阅读Leveldb的测试用例。Leveldb源码中包含了大量的测试用例,这些用例对于理解Leveldb的不同功能和特性非常有帮助。通过阅读和运行这些测试用例,你可以对Leveldb的行为有更深入的了解。 8. 参考文档和论文。如果你想更深入地了解Leveldb的实现原理和技术细节,可以查阅Leveldb的官方文档或相关的论文。这些文档可以为你提供更详细的信息和背景知识。 最后,要理解Leveldb源码并不是一件简单的任务,需要投入大量的时间和精力。所以,建议你在阅读源码之前,对C++和数据库原理有一定的了解和经验,同时也要具备耐心和持续学习的精神。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值