首先,明确一下索引的目的,是为了加快查找。那么,我们从可以提高查找速率的几种数据结构来分析,为啥Mysql要使用B+树:
1、数组
数组的特征是连续的内存块,利用磁盘的预读特性,遍历查询较快,如果数组本身有序,利用二分查找则查找更快,所以时间复杂度未O(N)或者O(logN)。但是插入/删除需要调整位置,特别是如果插入的位置是在前面,则几乎整个数组的元素都需要调整。所以,数组劣势在写入。
2、二叉排序树
二叉排序树极端情况下会退化成链表,链表遍历的时间复杂度为O(n)。所以,二叉排序树的劣势在于“不平衡”。
3、平衡二叉树
平衡二叉树可以像数组一样使用二分查找,又可以像二叉排序树那样可以做到局部调整。但是最多只有两个子节点,数据量大的话数据深度很深。
4、红黑树(AVL)
红黑树是为了减少平衡二叉树调整开销,但是作为索引结构的话,仍有平衡树的问题。
5、跳表
跳表对标的是平衡树/AVL树,具有原理简单,实现容易的特点。支持对有序链表提升查找效率,时间复杂度o(logN)。主要场景是用来替代平衡树/AVL树,如 redis。但链表在内存中的地址不连续,无法利用磁盘的预读特性。
6、hash
等值查询很快(O(1),但不能范围查询和排序。
7、B树
B树又叫多路搜索树,和二叉树、平衡树、红黑树的两路不同,可以一定程度解决数据量大导致树深的问题。但是不足的是非叶子节点包含了数据,在内存页大小固定的情况下,同等数量的数据需要更多的内存页来存储,而B+树由于只有叶子节点存储数据,所以内存利用率更高。
8、B+树
在B树的基础上做了优化:
1)数据只存在叶子节点,有两个好处:一是内存利用率比B树高,二是避免了跨层查询
2)避免跨层查询的还有一个原因是,相邻叶子节点之间使用指针相连,这也是为了支持翻页
B+树利用的磁盘特性:
1)预读:磁盘一般会顺序向后读取一定长度的数据(页的整数倍)放入内存
2)局部性原理:当一个数据被用到时,其附近的数据也通常会马上被使用