从零实现一个数据库(DataBase) Go语言实现版 2.索引

本文链接：https://blog.csdn.net/weixin_43547795/article/details/130809247

键值对存储和关系型数据库

虽然一个关系型数据库支持多种类型的查询, 几乎所有查询都可以分解为三种类型的磁盘操作.

扫描所有的数据集(不使用索引)
点查询: 按指定key索引查询
范围查询: 按范围查询索引(索引是排序的)

数据库索引大多数关于范围查询和点查询, 而且很容易看出范围查询只是点查询的一个超集.如果我们提取数据库索引的功能, 那么创建键值存储就很简单了.但关键是数据库系统可以建立在KV存储之上.
在尝试关系型数据库之前, 我们将构建一个KV键值对存储, 但我们先探索一下我们的选项.

哈希表/散列表

哈希表/散列表在设计一个通用的kv存储时是首先被排除在外的.主要原因是排序-许多现实世界的应用需要分类和排序.
然而, 在专门的应用中可能会使用哈希表/散列表.使用哈希表的另一个头痛的问题是大小调整操作.初始调整大小复杂度在O(n), 会导致磁盘空间和IO的突然增加.是有可能做到增量地调整哈希表的, 但这会增加复杂度.

B-Trees B树

平衡二叉树可以在Ologn复杂度内被查询或更新, 还可以区间查询.一个B树大致是一个平衡的n叉树.为什么使用n叉树代替一个二叉树?有以下几种原因:

减少空间开销.二叉树的每个叶子节点都可以通过从父节点的一个指针到达, 而父节点可能也有自己的父节点. 平均下来, 每个叶子节点需要1-2个指针.这与B树相反.在b树中, 叶子节点中的多个数据共享一个父节点.n叉树也更短, 指针上浪费的空间更少.
在内存中更快.由于现代CPU内存缓存和其他因素, n叉树可以比二叉树更快, 即使它们的大O复杂度是相同的.
更少的磁盘IO.B树更短, 这意味着更少的磁盘搜索.磁盘IO的最小大小通常是内存页面的大小(可能是4k).操作系统将填满整个4k页空间, 即使你读取较小的大小. 如果我们利用4k页中的所有信息(通过选择至少一个页面的节点大小), 这是最优的.

我们在接下来的文章中使用B树, 但B树不是唯一的选择.