一般情况下,我们会在一个索引上较多的使用等值查询或者范围查询,此时索引大多可以帮助我们极快的查询出我们需要的数据。
那当我们在where条件中对索引列使用!=查询,索引还能发挥他的作用吗?
以此SQL为例:
select * from t where k != 6;
复制代码
MySQL会如何执行这个SQL呢?是直接全表扫描吗?
其实,走不走索引,只取决于一个因素,那就是成本。
我们知道,MySQL中有一个叫做优化器的东西,他会对每一条查询sql做成本分析,然后根据分析结果选择是否使用索引或者全表扫描。
对于上面的sql,优化器会将k!=6转化为两个区间查询(-∞,6)和(6,+∞),然后对索引树进行成本计算。
我们画一个简略版的二级索引树。
简单解释一下:每个颜色代表一个数据页(MySQL与磁盘交互是以页为单位,默认一个页是16kb,这里我们假设一个页存两条数据,并且MySQL规定页中的数据会有序排放并组成一个单向链表)。
对于一个普通的二级索引,叶子节点存储是索引列和主键值,非叶子节点页存储是下方叶子节点的最小值和对应的页地址。(叶子节点是有序的,对应的主键可不一定)
那么对于两个区间查询(-∞,6)和(6,+∞)意味着什么呢?
如果一个二级索引树的数据简化为12条数据,那么就有1-5,7-12共计11条数据要被扫描,然后进行11次回表。
也就是说,如果表中有120万条数据,要回表110万次。
emm,MySQL一看这么麻烦,还扫描什么二级索引树啊,直接全表扫描走起吧。
那难道说,对于!=查询就用不了索引了吗?
非也。
如果数据集是下面这种,情况可能就不一样了。
在这个索引树上,索引值为6的占据了很大一部分,那么MySQL扫描成本就会大大降低了。
此时扫描的行数变成了1,10-12,共计3行。
相对于全表扫描,此时走二级索引树扫描,显然代价是比较低的。
也就是说,对于!=是否可以使用索引,要看具体的场景。
总结一下就是,MySQL判断某个sql是否走索引,其实取决于成本分析。
如果使用二级索引的成本更低,MySQL就会倾向于使用二级索引。
如果使用二级索引扫描的行数占比过高,导致需要频繁的回表,MySQL经过计算之后觉得走二级索引的代价太大了,就会使用全表扫描。