B+树---mysql索引

前言

mysql中索引类型:B+ 树索引、Hash 索引、全文索引

mysql默认使用的存储引擎为innodb,而innodb存储引擎中采用的索引数据结构为B+树,树高一般为0-3

B+ 树由二叉查找树,平衡二叉树和 B 树这三种数据结构演化来。

二叉查找树

image
图中的圆为二叉查找树的节点,节点中存储了键(key)和数据(data)。键对应 user 表中的 id,数据对应 user 表中的行数据。

二叉查找树的特点就是任何节点的左子节点的键值都小于当前节点的键值,右子节点的键值都大于当前节点的键值。顶端的节点我们称为根节点,没有子节点的节点我们称之为叶节点

查询过程:以根节点为当前节点,要查询的数据id大于当前节点找子节点的左边,小于就找右子节点,反复得到结果。

平衡二叉树

image
当数据量较大时,按上述算法,如果查询的数据正好是叶子节点的数据,那么需要多次对比,查询极慢。

导致这个现象的原因其实是二叉查找树变得不平衡了,也就是高度太高了,从而导致查找效率的不稳定。

所以便引出了平衡二叉树,平衡二叉树又称 AVL 树,在满足二叉查找树特性的基础上,要求每个节点的左右子树的高度差不能超过 1

平衡二叉树和非平衡二叉树的对比:
image
平衡二叉树保证了树的构造是平衡的,当我们插入或删除数据导致不满足平衡二叉树不平衡时,平衡二叉树会进行调整树上的节点来保持平衡

B树

大家都知道内存的易失性,所以很多数据都保存在磁盘上,但是磁盘io会带来极大的性能损失,为了兼顾数据安全以及性能问题,我们只能减少磁盘IO。

从磁盘中读取数据时,都是按照磁盘块(4kb)来读取的,并不是一条一条的读

按照上述方式,一个节点存放一条数据也就占用了一个磁盘块,大数据量时必然会发生多次磁盘IO。
image
为了解决平衡二叉树的这个弊端,我们应该寻找一种单个节点可以存储多个键值和数据的平衡树。也就是我们接下来要说的 B 树。
image
图中的每个节点被称为页,对应磁盘中的一个磁盘块。

一般情况下都是0-3阶树状,叶子节点以及非叶子都存在指针以及数据,这样增加了节点数据,减少了磁盘IO。极大程度上增加了查询速率。

假如我们要查找 id=28 的用户信息,那么我们在上图 B 树中查找的流程如下:

  • 先找到根节点也就是页 1,判断 28 在键值 17 和 35 之间,那么我们根据页 1 中的指针 p2 找到页 3。
  • 将 28 和页 3 中的键值相比较,28 在 26 和 30 之间,我们根据页 3 中的指针 p2 找到页 8。
  • 将 28 和页 8 中的键值相比较,发现有匹配的键值 28,键值 28 对应的用户信息为(28,bv)。

B+ 树

image
根据上图我们来看下 B+ 树和 B 树有什么不同:

  • B+ 树非叶子节点上是不存储数据的,仅存储键值,而 B 树节点中不仅存储键值,也会存储数据。
  • 因为 B+ 树索引的所有数据均存储在叶子节点,而且数据是按照顺序排列的。 这样范围查找,排序查找,分组查找以及去重查找变得异常简单。而 B 树因为数据分散在各个节点,要实现这一点是很不容易的。
  • B+ 树中各个页之间是通过双向链表连接的,叶子节点中的数据是通过单向链表连接的。

B+ 树索引就是 InnoDB 中 B+ 树索引真正的实现方式,准确的说应该是聚集索引

MyISAM 中的 B+ 树索引实现与 InnoDB 中的略有不同。在 MyISAM 中,B+ 树索引的叶子节点并不存储数据,而是存储数据的文件地址

为什么mysql存储引擎innoDB使用B+而不用B呢?

在数据库中页的大小是固定的,InnoDB 中页的默认大小是 16KB。如果非叶子节点不再存储数据,而全部用来存储指针的话,存储的指针也就会更多,那么相应的树的阶数(节点的子节点树)就会更小,树就会更矮更胖,我们查找数据进行磁盘的 IO 次数又会再次减少,数据查询的效率也会更快。

在这里要注意,页大小并不是越大越好,InnoDB 是通过内存中的缓存池(pool buffer)来管理从磁盘中读取的页数据的。页太大的话,很快就把这个缓存池撑满了,可能会造成页在内存与磁盘间频繁换入换出,影响性能

B+ 树一个节点可以存储 1000 个键值,那么 3 层 B+ 树可以存储 1000×1000×1000=10 亿个数据。
一般根节点是常驻内存的,所以一般我们查找 10 亿数据,只需要 2 次磁盘 IO。

聚集索引 VS 非聚集索引

  • 聚集索引(聚簇索引):

以 InnoDB 作为存储引擎的表,表中的数据都会有一个主键,即使你不创建主键,系统也会帮你创建一个隐式的主键, B+ 树的键值就是主键,以主键作为 B+ 树索引的键值而构建的 B+ 树索引,我们称之为聚集索引
-

  • 非聚集索引(非聚簇索引):

非聚集索引(非聚簇索引):以主键以外的列值作为键值构建的 B+ 树索引,我们称之为非聚集索引。

非聚集索引与聚集索引的区别在于非聚集索引的叶子节点不存储表中的数据,而是存储该列对应的主键,想要查找数据我们还需要根据主键再去聚集索引中进行查找,这个再根据聚集索引查找数据的过程,我们称为回表。

查找过程

select * from user where id>=18 and id <40

image

  1. 直接从根节点得到页1,从页 1 中我们可以找到键值 18,此时我们需要根据指针 p2,定位到页 3
  2. 从磁盘中读取页 3 后将页 3 放入内存中,然后进行查找,我们可以找到键值 18,然后再拿到页 3 中的指针 p1,定位到页 8。
  3. 再去磁盘中将页 8 读取到内存中。因为页中的数据是链表进行连接的,而且键值是按照顺序存放的,此时可以根据二分查找法定位到键值 18。此时因为已经到数据页了,此时我们已经找到一条满足条件的数据了,就是键值 18 对应的数据。因为是范围查找,而且此时所有的数据又都存在叶子节点,并且是有序排列的,那么我们就可以对页 8 中的键值依次进行遍历查找并匹配满足条件的数据。我们可以一直找到键值为 22 的数据,然后页 8 中就没有数据了,此时我们需要拿着页 8 中的 p 指针去读取页 9 中的数据。
  4. 因为页 9 不在内存中,就又会加载页 9 到内存中,并通过和页 8 中一样的方式进行数据的查找,直到将页 12 加载到内存中,发现 41 大于 40,此时不满足条件。那么查找到此终止。
    image

非聚簇索引与上相似,只不过需要最后得出聚簇索引的键值后回表,完成数据的查询

参考
联系侵删

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值