Hash 结构
Hash 本身是一个函数,又被称为散列函数,他可以帮助我们大幅度提升检索效率。
Hash算法是通过某种确定的算法(比如MD5)将输入转变为输出。 相同的输入永远可以有相同的输出
。
加速查找速度的数据结构,常见的有两类
- 树,例如平衡二叉树,查询、插入、修改、删除的平均时间复杂度都是
O(log2N)
- Hash,例如HashMap,查询、插入、修改、删除的平均时间复杂度都是
O(1)
采取Hash进行检索效率非常高,基本上一次检索就可以找到数据,而 B+Tree 需要自顶向下依次寻找,多次访问节点才能找到,中间需要多次 IO 从效率来说 Hash 比 B+Tree 更快
Hash结构效率高,那为什么索引结构要设计成树型呢?
- Hash索引仅能满足 = <> 和 IN 查询,如果进行
范围查询
,哈希型的索引,时间复杂度会退化为 O(n); - Hash 索引无序,当order by 的情况下,Hash索引还需要对数据重新排序。
- 对于联合索引,Hash值是将联合索引键合并后一起来计算的,无法单独对一个索引或者几个索引键进行查询。
- 如果
索引列重复很多,效率就会降低
。这是因为Hash冲突时,需要遍历指针来进行比较。
索引 存储引擎 | MyISAM | InnoDB | Memory |
---|---|---|---|
HASH索引 | 不支持 | 不支持 | 支持 |
Hash索引的适用性
Redis 存储的核心就是 Hash表
使用Memory存储引擎进行等值查询
是个不错的选择
InnoDB 不支持 Hash索引,但是提供了 自适应Hash索引
当某个数据经常被访问,但满足一定条件,就会将这个数据页的地址存到Hash表中。
二叉搜索树
特点
- 一个节点只能有两个子节点,也就是一个节点度不能超过2
- 左子节点<本节点;右子节点>=本节点
查找规则
- 如果 key 大于根节点,则在右子节点查找;
- 如果 key 小于根节点,则在左子节点查找;
二叉树
二叉搜索树但已经退化成一条链表了
深度过高会导致IO过多,就需要 降低树的高度
于是出现了 AVL树
AVL树 (平衡二叉搜索树)
它要么是一颗空树,要么是左右两个子树的高度差不超过一,并且左右两个子树都是平衡二叉树
常见的平衡二叉树有很多种,包括 平衡二叉搜索树
红黑树
数堆
伸展树
再之后就出现了B-Tree
B-Tree(B树)
又叫做 多路平衡查找树
,它的高度远小于平衡二叉树的高度
B树
和 B+树
不同,B树的叶子节点和非叶子节点都存放数据,搜索有可能在非叶子节点结束。
B+Tree(B加树)
B+树也是多路搜索树, 基于B树进行改进
主要差异为:
- 有k个子节点就有k个关键字。也就是每个关键字都对应一个子节点,而B树中子节点数量=关键字+1
- 非叶子节点的关键字也会同时存在子节点中,并且是在子节点中所有关键字里最大(或最小)。
- 非叶子节点仅用于索引,不保存数据记录,跟记录有关的信息都放在叶子节点中。而B树中,
非叶子节点即保存索引又保存记录
优势
B+Tree查询效率更稳定,效率更高。B+树目录页只存放记录页的页号,不存放记录,这样就会使得B+Tree更加 矮胖
B树在范围查询上如果要进行排序则需要将树遍历,而B+Tree只需要遍历叶子结点(最后的记录层)
记录,这样就会使得B+Tree更加 矮胖
B树在范围查询上如果要进行排序则需要将树遍历,而B+Tree只需要遍历叶子结点(最后的记录层)