数据库之索引底层数据结构

数据库之索引底层数据结构

索引时Mysql高效获取数据排好序的数据结构。

原因

数据库查询是数据库最主要的功能之一。而查询的速度是越快越好。当数据量越来越大的时候,查询话费的时间随之增长,而索引,可以加速数据的查询。因为索引是有序的。

底层数据结构

平衡二叉树

二叉树的查找时间是O(Log n),器查找效率与深度有关,而普通的二叉树可能由于内部节点排列问题退化为链表,此时查找效率最差O(n^2)。因此平衡二叉树是最好的选择,子分支保持平衡,查找时间复杂度为O(Log n)。
但实际上,数据库中索引的结构并非AVL或者更优秀的红黑树,尽管他的查询复杂度很低。

为什么平衡二叉树也不适合作为底层结构

索引是存于索引文件中的,此乃在于磁盘中,因为索引通常是很大的,无法一次将全部索引加载到内存钟,因此每次只能从磁盘钟读取一个磁盘页的数据到内存中,而这个过程相比直接内存中的速度差了几个级别。
注意:平衡二叉树结构,指的是逻辑结构上的彭亨二叉树,其物理是现实数据。然后由于逻辑结构上相近的节点在物理结构上可能差很远。因此每次读取的磁盘页的数据有许多是用不上的,因此查询过程钟进行许多次磁盘读取操作。
而适合作为索引的结构尽可能少的磁盘IO操作。

红黑树

使用红黑树,是对平衡二叉树的改进,但是还是没有避免多次磁盘IO的缺点。因为两个逻辑邻近节点在物理数组上相差很远。而且数据量大,数越深,但是在删除插入等旋转操作上比AVL消耗更少。

B-Tree

平衡二叉树没有充分利用磁盘预读功能,而B树是为了充分利用磁盘预读功能而创建的一种数据结构,也就是说B树就是为了索引才被发明。

局部性原理与磁盘预读:

由于存储介质的特性,磁盘本身存取就比主存慢很多,再加上机械运动耗费,磁盘的存取速度往往是主存的几百分分之一,因此为了提高效率,要尽量减少磁盘I/O。为了达到这个目的,磁盘往往不是严格按需读取,而是每次都会预读,即使只需要一个字节,磁盘也会从这个位置开始,顺序向后读取一定长度的数据放入内存。这样做的理论依据是计算机科学中著名的局部性原理:
当一个数据被用到时,其附近的数据也通常会马上被使用。
程序运行期间所需要的数据通常比较集中。
由于磁盘顺序读取的效率很高(不需要寻道时间,只需很少的旋转时间),因此对于具有局部性的程序来说,预读可以提高I/O效率。

B树的每个节点可以存储多个关键字,他将节点大小设置为磁盘页的大小,充分利用磁盘预读功能。每次磁盘IO都会读取一整页,同时存储多个节点关键字,树深比较小。进而执行磁盘IO的次数比较少,更多的是内存钟的查找和比较。
B书的查询主要发生在内存中,而AVL或者红黑树查询主要是发生磁盘读取。

B+树

Mysql索引使用B+树,他是B树的变种,但是更优秀。

  1. B树:有序数组+AVL
  2. B+树:有序数组链表+AVL

B+树的关键字全部存在于叶子节点,非叶节点用来做索引,而叶子节点中有一个指针只想向下节点,做这个优化目的主要是为了提高区间访问的性能。而正是这个特征决定了B+树更适合用来存储外部数据。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值