索引的原理
目标
1、索引的本质
2、索引底层的数据结构
3、不同存储引擎中索引的落地
4、索引的创建和使用原则
索引基础
索引是什么
排序的
数据结构
索引类型
普通索引:没有限制
唯一索引:键值不能重复
全文索引:针对比较大的数据,只有文本数据类型字段才能创建
索引存储模型
二分查找
查询一些有序的数据时,二分查找速度是比较快的,所以第一个想到也是利用有序数组作为索引的存储结构
但是,查询效率很高,但是更新数据时会挪动大连数据,所以只适合存储静态数据。
所以,为了支持频繁的修改,需要使用链表,那有没有能实现二分查找的链表呢?
二叉树
二叉树的特点:
左侧节点都小于父节点,右侧节点都大于父节点
缺点:极端情况下,又变成链表
所以,平衡二叉树又出场了
平衡二叉树(AVL Tree)
特点:左右子节点深度差值不能超过1
所以,平衡二叉树会根据这个特点,左旋转、右旋转,保证子节点深度差值不会查过1,大体是平衡的。
平衡二叉树如何存储索引
索引结构有三部分:
1、索引键值
2、引用地址
3、左右节点引用地址
平衡二叉树的缺点:
innoDB操作磁盘的最小单位是页,大小是16K,通常一个树的节点设计成16k,不然就没读完或者读不够
二叉树每个节点就保存一个键值+数据+引用,太浪费
而数据存储很多时,由于每层只有左右两个节点,所以这个索引树一定非常深,会发生非常多次IO操作
优化:
1、每个节点存储更多的数据
2、每个节点上分叉数越多,指针越多,每层指向的节点就多,整体树的深度就小
所以需要增加每层的分叉,两个太少了
多路平衡二叉树(B Tree)
特点
节点拥有的子树数量叫做度
关键数组:N
度数:N+1
分叉数永远比关键字数多1
B+ 树 (加强版多路平衡查找树)
特点:
1、关键字数量跟度数相等
2、根节点和枝节点都不会存储数据,只有叶子节点才会存储数据(完整记录的地址)
优势:
1、B 树的变种,B 树解决的问题他也能解决(每个节点存储更多的关键字;分叉更多)
2、扫库,扫表能力更强(全表扫描只要遍历叶子节点即可)
3、磁盘读写能力比B树更强,(根节点和枝节点不保存数据,一个节点能保存更多的关键字)
4、排序能力更强(叶子节点有下一个数据区的指针,数据形成链表)
5、效率稳定,数据都在叶子节点,IO次数稳定
为什么不用红黑树
红黑树也是BST树,但是不是严格平衡,听过变色和旋转达到平衡:
1、节点分为红色和黑色
2、根节点必须是黑色
3、叶子节点都是黑色的NULL节点
4、红色节点的叶子都是黑色节点
5、从任何节点出发,到其每个叶子节点的路径中包含相同的黑色节点
为什么不用红黑树:
1、只有两个分叉,跟B树一样
2、不够平衡
红黑树一般放在内存中使用,例如java 的TreeMap,可以用来实现一致性hash
hash索引
navicat 里创建索引时,可以选择B tree索引,也可以选择hash索引
哈希索引的特点:
1、时间复杂度是O(1),查询速度快
2、查询数据时根据hash值查找,条件只能为 = ,不能为范围查找(> ;< ;between)
3、hash冲突
memory存储引擎可以使用hash索引
B+Tree 索引落地
mysql创建表时,都会在文件目录下创建对应的文件:
innoDB是 frm和ibd
Myisam是.frm .MYD .MYI
MyISAM
MYD存放的数据
MYI存放的索引,一个索引就是一个BTree;所有的索引都在这个文件里
innoDB
聚集索引
二级索引
非聚集索引的都叫二级索引