一、索引数据结构
B+树(二叉树、红黑树、hash、B-TREE等)
索引的概念:即排好序的数据结构
1、二叉树
特征:从根节点到叶子节点,父节点比子节点大,子节点中比父节点小的在左边,比父节点大的在右边。
缺点:如果数据是顺序排的,将会导致树高度很高,从而查询效率变慢。
2、平衡二叉树(AVL)
它是一 棵空树或它的左右两个子树的高度差的绝对值不超过1,并且左右两个子树都是一棵平衡二叉树。这个方案很好的解决了二叉查找树退化成链表的问题,把插入,查找,删除的时间复杂度最好情况和最坏情况都维持在O(logN)。但是频繁旋转会使插入和删除牺牲掉O(logN)左右的时间,不过相对二叉查找树来说,时间上稳定了很多
缺点:树的高度太高,红黑树同理(红黑树在平衡二叉树上进行了一定的发展,但是并不是完美平衡)
3、hash
通过计算对象的hash值来存放索引位置,查询效率高,但是对于排序查询就不能很好的支持了。
4、b-tree
(1)所有键值分布在整个树中
(2)任何关键字出现且只出现在一个节点中
(3)搜索有可能在非叶子节点结束
(4)在关键字全集内做一次查找,性能逼近二分查找算法
必然不方便排序范围查询;
5、b+tree
B+树是在B树的基础上进行改造,它的数据都在叶子结点,同时叶子结点之间还加了有序的指针形成链表。
(1)数据都存在叶子节点;
(2)非叶子节点只存放索引位置;
(3)叶子节点数据有序,且有指针,形成有序链表;
二、索引是如何在千万条数据中快速查找的
MyISAM:管理非事务表,它提供高速存储和检索,以及全文搜索能力。
InnoDB:具有事务。
索引存储:
MyISAM:建表的时候会生成两个文件,myi和myd,其中myi存放索引,myd存放数据。查询时会先查询myi文件再根据索引查询myd文件。
InnoDB:建表时生产ibd文件,索引和数据都存放在这一张表里。
其实聚簇索引和非聚簇索引区别就是索引和数据是否在一起。
三、索引失效
1、like 以%开头,索引无效;当like前缀没有%,后缀有%时,索引有效。
2、or语句前后没有同时使用索引。当or左右查询字段只有一个是索引,该索引失效,只有当or左右查询字段均为索引时,才会生效。
3、组合索引,不是使用第一列索引,索引失效。比如abc三个字段,查询条件bc,则索引失效。
4、数据类型出现隐式转化。如varchar不加单引号的话可能会自动转换为int型,使索引无效,产生全表扫描。
5、在索引字段上使用not,<>,!=。不等于操作符是永远不会用到索引的,因此对它的处理只会产生全表扫描。 优化方法: key<>0 改为 key>0 or key<0。
6、对索引字段进行计算操作、字段上使用函数。(索引为 emp(ename,empno,sal))
7、当全表扫描速度比索引速度快时,mysql会使用全表扫描,此时索引失效。
三、联合索引底层结构又是怎样的
对于组合索引,需要遵循断桥原则(最左匹配原则),例如(a, b,)可以满足a,a、b,我们根据这个原则反推一下二级组合索引的存储规则:
1、叶子节点应该是线性排列,并且每个节点的数据排列顺序和创建索引字段的顺序一致;
2、叶子节点排列顺序应该是先按照a进行排序,排序完成后再按照b进行排序,所以应该是a是全局有序,b是a中有序,如果列数更多的情况下,下一列都相对于前列有序。
3、非叶子节点存储完整的索引关键字信息,排列规则和叶子节点一致
4、mysql最左优化前缀原则 a,b,c 索引, b=XX 就不走索引?
https://blog.csdn.net/u013164931/article/details/82386555
在有单列索引或者联合索引时,mysql查询优化器会判断纠正这条sql语句该以什么样的顺序执行效率最高,最后才生成真正的执行计划。
四、explain
https://www.cnblogs.com/butterfly100/archive/2018/01/15/8287569.html#4479627