既然Hash结构效率高,那为什么Innodb引擎的索引结构还要设置成B+树型呢?
要搞清楚这个问题,我们首先聊聊为什么Hash结构效率高,高再哪?
Hash是一种经典的数据结构,你可以简单的理解成由一个数据和很多链表构成;Hash的特性就是键值对,即(K,V),我们如果想插入元素时,先计算出这个元素的哈希值,然后通过不同的哈希函数,求出K,常用的比如 取模 法,求出K之后,将V的值存储到这个K的位置对应的链表;
之所以快是因为相对B+树来说,哈希可以通过元素的哈希值快速的算出K,然后接下来完成增删改就很快。
但为什么Innodb不选择hash结构呢?
哈希仅能满足 = <> in 即(等值查询) ,但是对于范围查询 (> ,<, >=,<= …),哈希索引的时间复杂度就会由O(1)退化为O(n),[为什么这么说呢?因为K的值在数组里面存储并不是按照顺序存储的,并不是按照(1,2,3,4,…)或者(n,n-1,…,5,4,3,2,1) 升序或者降序存储的,而是乱序存储的(5,7,3,1,9,6)类似于这样乱序存储的],所以当进行范围查询的时候,对于哈希索引来说,我们就会一个值一个值的去在给出的范围里面对比,所示时间复杂度退化为了O(n),而对于树型的"有序性",依然能够保持O(log n)的事件复杂度
因为Hash索引里面数据的存储是没有顺序的,所以当进行order by 排序的时候,使用哈希索引还要重排序
对于联合索引来说,哈希值是根据联合索引的键合并一起后计算出来的,无法对单独的一个索引键或者几个索引键进行查询
虽然哈希索引进行等值查询效率高,但是如果这个索引列中含有大量重复的值,效率也会变低。
因为遇到Hash冲突时,需要遍历桶中的行指针进行比较,找到查询的关键字非常耗时,所以hash索引通常不会用到索引列对应重复值高的字段上,比如性别,年龄