MySQL为什么要选择B+树来作为索引的数据结构

二叉树的结构出发

  首先从二叉树的结构来说,二叉树的结构是从它的第一个元素开始定根节点,往后插入的数据会跟根节点的值做比较,如果值比根节点的值大则会放到右边,成为右子节点,反之,则插入到左边,成为左子节点

结论

  从上面二叉树的结构可以得到以下结论:如果第一个插入的数据的值比较小,往后插入的数据的值都比第一个插入的数据的值要大,则二叉树会转变成为一颗斜树,斜树的时间复杂度为O(n),效率极低   

在这里插入图片描述
二叉树的检索是怎么样的,如果我要获取上图G的值,是怎么获取的?
二叉树的检索采用的是二分查找法,因为二叉树的数据是保存在磁盘的,所以每次读取会先将根节点加载到内存中,然后用G的值跟A的值做比较,如果G的值比A的小,则会将A的左子节点的数据加载到内存中(非叶子节点只保存子节点的地址),依次这样读取,直到最后读取到的值是G
从计算机的IO读取原理来看,计算机每次的读取是按页为单位,默认一页的大小为4k,计算机还会利用空间局部性原理,认为你读取的这一页数据,过一会你还会读旁边的那一页,就像是快递小哥,他要去派送A村的快递,他在车装的不只是A村的快递,他还会装B村C村的快递,计算机的读取原理也是如此。
从二叉树的数据结构来看,计算机检索二叉树是按一个节点来检索的,而一个非叶子节点上最多有当前节点的数据和其子节点的地址,这样远远达不到4K的大小,所以根据这一点,二叉树不适合做索引

为什么B+树又适合做索引呢?

从B+树的结构出发:

在这里插入图片描述
1、B+数是由B-数演变而来,所以B+数拥有B-数的所有特性
2、B+树的非叶子节点只保存关键字和子节点的地址,而叶子节点保留了当前路节点的所有节点的关键字、数据区和地址,所以要得到节点的数据就要到叶子节点上去获取,所以我们每次对数据的检索的时间都差不多,不像其他树,非叶子节点也有保留数据区,这样子当数据量庞大,当检索第一个跟最后一个的索引时间就相差比较大
2、B+树是一颗多路平衡查找树,由于它是多路的,所以它的高度比其他二叉树都矮,树的高度决定了检索数据的时间复杂度
计算机默认检索的一页是4k,而mysql对这个4k做了调整增加到16k,这个一页是16k,假如这里保存的是一个id的索引树,那id设置为int类型,一个int类型为4个字节,那这一页可以保存的id的个数就可以这样算((16* 1024)/4),所以索引的类型和字节数都决定了数据库检索数据的效率,所以该id树的一个节点可以设置的路数就为((16*1024)/4)路,所以这一页就可以保存这么多数据,一次加载到内存中就可以加载那么多,充分利用了计算机的IO读取性能和空间局部性原理,极大降低了计算机IO的次数
3、B+树的叶子节点上保存一个指针,这个指针指向的是下一个叶子节点的指针,譬如第一路的叶子节点上数据有567这三个树,而第二路有8910,则第一路的7有个指针会指向第二路的8,这样做的好处是使数据自带有顺序性的特性,这个顺序性在我们做一个范围查询时,性能就得到充分的发挥,这个指针也是B-树跟B+树的区别之一

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

啊狸的Java

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值