和很多系统一样,在开始实现存储引擎之前,我们需要给它找一个合适的数据结构。数据库存储引擎本质上是一个支持快速查找的系统,因此数据库存储引擎需要一个支持这样功能的数据结构。
常见数据结构
常见的查找数据结构包括HASH表和二叉树(红黑树)。
Hash表介绍
Hash表是普通数组的一个扩展,它支持O(1)的操作,包括查询,插入,以及删除。但是Hash支持O (1)时,是一个比较理想的状态,要求很好的Hash函数以及比较多的冗余内存。这部分咱们暂时不展开。
二叉树介绍
二叉树是另一种比较经典的查找数据结构,其特点如下:
- 只有一个根结点
- 任何一个子节点最多允许两个子节点
- 左子节点的值小于父节点的值,右子节点的值大于父节点的值
一个典型的二叉树如图所示:
虽然Hash表或者二叉树是比较常见的查找数据结构,但是大部分数据库存储引擎并不使用它们作为主要的数据结构(也有例外的),而是使用B-Tree以及B-Tree的变种B+Tree。
提问:有哪些数据库存储引擎是使用Hash表或者二叉树作为主要的数据结构,为什么它们使用这些数据结构?
B-Tree树
B-Tree和二叉树类似,有如下特性:
- 只有一个根节点
- 一个节点允许最多有N个值,N>2,有N+1个字节点
- 节点中值按照从小到大的顺序排列
- 第m个子节点中的所有值小于第m个值,第N+1个子节点的所有值大于第N个值
- 叶子节点没有子节点,所有叶子节点到根节点高度一样
- 一般除了根节点,节点值的个数大于等于N/2
下图为一个N=4的B-Tree:
B-Tree优势
大多数数据库存储引擎使用B-Tree的原因有两个:
- 数据库存储最终需要从文件系统中读取这些节点的数据,而从文件中读取节点操作是比较耗时,因此需要一次尽量多读取一些数据,B-Tree支持N个值,正好可以用来减少文件读取的次数。例如:某个B-Tree的N为128(2^7),从2^14中读取一个数据,平均需要读取2次文件(第一次读取根节点,第二次读取叶子节点);而,如果使用二叉树,则平均需要读取14次文件(第一次读取根节点,最后一次读取叶子节点)。
- 硬盘有一个特性,就是硬盘读写数据时,是一个数据块一个数据块的读写,不是内存中那样,一