为什么要有索引这个东西?
普通查询时逻辑是这样的:
像上表中查找45岁的用户时,
查到第七行之后仍然会继续查找,把全表都查一遍
因为后边可能还会有45的数据
而索引,就可以像上图中这种类似于二叉树的数据结构,也就是通过一定的算法,
来进行最少次数的查询,获取到想要的数据
默认采用B+树
各类树演示地址:https://www.cs.usfca.edu/~galles/visualization/BPlusTree.html
Hash
哈希索引就是采用一定的hash算法,将键值换算成新的hash值,映射到对应的槽位上,然后存储在hash表中。
如果两个(或多个)键值,映射到一个相同的槽位上,他们就产生了hash冲突(也称为hash碰撞),可以通过链表来解决。
特点:
Hash索引只能用于对等比较(=、in),不支持范围查询(betwwn、>、<、…)
无法利用索引完成排序操作
查询效率高,通常只需要一次检索就可以了,效率通常要高于 B+Tree 索引
存储引擎支持:
Memory
InnoDB: 具有自适应hash功能,hash索引是存储引擎根据 B+Tree 索引在指定条件下自动构建的
面试题
为什么 InnoDB 存储引擎选择使用 B+Tree 索引结构?
相对于二叉树,层级更少,搜索效率高
红黑树解决了二叉树中顺序插入变成链表的问题,但还是二叉的,导致层级较高
对于 B-Tree,无论是叶子节点还是非叶子节点,都会保存数据,数据是存储在页中的,这样导致一页中存储的键值减少,指针也跟着减少,要同样保存大量数据,只能增加树的层级,导致性能降低
B+树只有在叶子节点中才存有数据,非叶子节点只存键值和指针,键值和指针存的多了,层级就会变少,效率就高。
而且B+树的叶子节点中的数据形成了链表,便于增大范围搜索和排序的效率
相对于 Hash 索引,B+Tree 支持范围匹配及排序操作