1、索引的本质
索引的本质是一种排好序的数据结构。
索引可以类比字典中的目录。
2、索引的分类
2.1、hash索引
hash索引是常见的索引,单条记录查询效率很高,时间复杂度为1,但是hash索引并不是最常见的数据库索引类型。原因是hash索引适合精确查找,但是范围查找不适合。hash索引在范围查找时只能全表匹配的查询。
2.2、二叉树
常见的索引使用的数据结构是树结构。
二叉树的结构为
在极端的情况下,二叉树会出现链化的情况,即是节点一直在某一遍增加,效果如图
2.3、平衡二叉树
平衡二叉树,根节点会随着数据的改变而变更,平衡二叉树容易出现效率问题,数据量越多,遍历次数就会越多,IO次数就越多,速度就越慢,磁盘的IO又树高决定。
2.4、B树(二三树)
B数,先上图
B树节点中不仅包含数据的key值,还包含data值。
每页存储的控件是有限的,如果data比较大,会导致B树很深,从而增加了磁盘IO的次数,影响查询的效率。
2.5、B+树
MySQL中最常见的索引数据结构是B+树。
B+树中,所有数据记录节点都是按照键值大小存放在同一层的叶子节点上,而非叶子节点只存储可以的信息,这样可以大大减少每个节点的存储key的数量,降低B+树的高度。
B+树子节点从小到大有序排练,左边的结尾数据会保存右边子节点开始数据的指针。
B+树的层级更少,相对比B树,B+树每个非叶子节点存储的关键字数更多,树的层级更少所以查询数据更快。
B+树查询速度文档,所有数据都存储在叶子节点上,所以每次查找的次数都相同。
B+树所有的叶子节点数据构成了一个有序链表,在查询大小区间数据的时候更加方便,数据紧密性很高,缓存的命中率也会比B树高。
B+树全节点遍历更快,B+树遍历整棵树只需要遍历所有的叶子节点就可以,有利于数据库做全表扫描。
上图更直观
数据页就是存放数据的地方,数据页之间是通过双向链表进行连接的。
3、主键目录
mysql在存储数据的时候是以数据页为最小单位的,数据在数据页中是连续的,数据页中的数据都是按照主键排序的,如果没有指定主键MySQL会生成一个隐藏的主键。数据页之间是通过双向链表来关联的,数据与数据之间是以单向链表来关联的。
每一个数据页中都有有一个最小主键。每个数据页的页号和最小主键会组成一个主键目录,如上图的左边部分,
4、索引页
数据页多,主键目录也会变得很多,导致二分查找的效率也会变得很低,为了解决这种问题,MySQL设计出了一种新的存储结构-索引页。
索引页多的话也会不断分裂,最终也是一颗B+树。
这就是数据在磁盘中真正存储的物理结构。B+树也是二叉搜索树的一种,但是数据只存在叶子节点上,像这样索引页+数据页组成的B+树就是聚簇索引。
聚簇索引是mysql根据主键索引结构创建的。
5、非主键索引
非主键索引和主键索引其实原理是一样的,mysql都是去维护一颗B+树。
在MySQL中,创建多少个索引,就会维护多少颗B+树,因此索引索引不能创建太多,会占用空间,
非主键索引区别在:只存放索引列+主键的数据,如果查询额外的字段,就需要回表了。回表是根据主键去到主键B+树中进行查找。