数据库索引——B+树索引
索引是一种数据结构,用于帮助我们在大量数据中快速定位到我们想要查找的数据。
索引最形象的比喻就是图书的目录了。注意这里的大量,数据量大了索引才显得有意义
索引在 MySQL 数据库中分三类:
- B+ 树索引
- Hash 索引
- 全文索引
B+树索引
B+树进化具有的优点:
- 索引节点没有数据,比较小,能够完全加载到内存中
- 而且叶子节点之间都是链表的结构,所以B+Tree也是可以支持范围查询的,而B树每个节点key和data在一起,则无法区间查找
- B+树中因为数据都在叶子节点,每次查询的时间复杂度是稳定的,因此稳定性保证了
为什么MySQL要使用B-Tree(B+Tree)? 有哪些优势?
一般来说,索引本身也很大,不可能全部存储在内存中,因此索引往往以索引文件的形式存储的磁盘上。这样的话,索引查找过程中就要产生磁盘I/O消耗,相对于内存存取,I/O存取的消耗要高几个数量级,所以评价一个数据结构作为索引的优劣最重要的指标就是在查找过程中磁盘I/O操作次数的渐进复杂度。换句话说,索引的结构组织要尽量减少查找过程中磁盘I/O的存取次数。下面先介绍内存和磁盘存取原理,然后再结合这些原理分析B-/+Tree作为索引的效率。
(0)先看看数据库表的存储结构
MySQL的存储结构
表存储结构
单位:表>段>区>页>行
在数据库中, 不论读一行,还是读多行,都是将这些行所在的页进行加载。也就是说存储空间的基本单位是页。
一个页就是一棵树B+树的节点,数据库I/O操作的最小单位是页,与数据库相关的内容都会存储在页的结构里。
B+树索引结构
- 在一棵B+树中,每个节点为都是一个页,每次新建节点的时候,就会申请一个页空间
- 同一层的节点为之间,通过页的结构构成了一个双向链表
- 非叶子节点为,包括了多个索引行,每个索引行里存储索引键和指向下一层页面的指针
- 叶子节点为,存储了关键字和行记录,在节点内部(也就是页结构的内部)记录之间是一个单向的链表
B+树页节点结构
有以下几个特点
- 将所有的记录分成几个组, 每组会存储多条记录,
- 页目录存储的是槽(slot),槽相当于分组记录的索引,每个槽指针指向了不同组的最后一个记录
- 我们通过槽定位到组,再查看组中的记录
页的主要作用是存储记录,在页中记录以单链表的形式进行存储。
单链表优点是插入、删除方便,缺点是检索效率不高,最坏的情况要遍历链表所有的节点。因此页目录中提供了二分查找的方式,来提高记录的检索效率。
B+树的检索过程
我们再来看下B+树的检索过程
- 从B+树的根开始,逐层找到叶子节点。
- 找到叶子节点为对应的数据页,将数据叶加载到内存中,通过页目录的槽采用二分查找的方式先找到一个粗略的记录分组。
- 在分组中通过链表遍历的方式进行记录的查找。
(1)B+树的演变
二叉查找树(二叉搜索树):不平衡
我们为 user 表(用户信息表)建立了一个二叉查找树的索引。
图中的圆为二叉查找树的节