索引的数据结构
mysql索引使用B+树。
详细原理可参考这里。
总结一下,B+树有几个特点:
- 中间节点只含索引列的值,而无数据,这样一个数据页(io读取的基本单位)可以放更多索引,从而降低io读取次数、提高查询效率。
- 叶子节点既有索引列的值,又有行数据。
- 相邻叶子节点以指针连接,方便范围查询
单列索引和组合索引
单列索引:B+树的中间节点上只有索引列的值,叶子节点同时有索引列的值和行数据
组合索引:假设包含a、b、c三列,则B+树的中间节点上只有索引最左列a的值,叶子节点上有全部索引列的值和行数据,但叶子节点上的索引排序遵循如下原则:a有序,b、c无序;a 相同的时候,b 有序;b 相同的时候,c 有序。我们称之为组合索引的最左匹配原则。
这里有个疑问,一张表组合索引为Idx=(a,b),如果查询条件里只用到了b,那索引Idx会被用到吗?
按上面的介绍,索引B+树是按最左列a的值大小排序构建的,而查询条件只含b,意味着没法用到索引树。我们通过在mysql上实测也能发现这一点。
总结一下:组合索引要生效,查询条件至少要包含该索引的最左列。否则,无法用到组合索引,会退化为全表扫描。
除了顺序之外,组合索引的列数也不能太多,否则会导致数据页能放的中间节点数减少,增加了IO读取,降低查询效率。
参考本文。