树结构------B树和B+树

基础概念

B树:多路搜索树,以M阶来说。

1)非叶子节点最多有M个子节点

2)每个节点最多有M-1个值

3)所有的叶子节点位于同一层

4)关键字在节点上只会出现一次

B+树:

1)叶子节点之间通过指针相互关联,构成一个有序链表。

2)所有的叶子节点包含了全部关键字

应用

MySql的索引选择的结构是B+树结构。

为什么要选择B+树结构

主要原因是减少I/O操作。

       从存储引擎INNODB开始讲起,基于磁盘存储的,并将其中的记录按照页的方式进行管理。为了平衡cpu和磁盘之间的速度,使用缓存池(一块内存区域)技术来提高数据库的整体性能。首先将从磁盘读取到的页存放在缓冲池中,下次不命中就会读取磁盘上的页。对于数据库中页的修改,先修改在缓冲池中的页然后再通过一定频率刷新到磁盘上,采用检查点(checkpoint)技术来实现。(注意与redis更新的区别,见数据库中具体的讲解)

     INNODB存储引擎是基于磁盘存储的,并将其中的记录按照页的方式进行管路。为了平衡cpu和磁盘之间的速度,使用缓存池(一块内存区域)技术来提高数据库的整体性能。首先将从磁盘读取到的页存放在缓冲池中,下次不命中就会读取磁盘上的页。对于数据库中页的修改,先修改在缓冲池中的页然后再通过一定频率刷新到磁盘上,采用检查点(checkpoint)技术来实现。(与redis更新的区别)

       高度可控制的多路搜索树可以满足,每次查找数据时把磁盘IO次数控制在一个很小的数量级,最好是常数数量级。

    

          如上图,是一颗b+树,浅蓝色的块我们称之为一个磁盘块,可以看到每个磁盘块包含几个数据项(深蓝色所示)和指针(黄色所示),如磁盘块1包含数据项17和35,包含指针P1、P2、P3,P1表示小于17的磁盘块,P2表示在17和35之间的磁盘块,P3表示大于35的磁盘块。真实的数据存在于叶子节点即3、5、9、10、13、15、28、29、36、60、75、79、90、99。非叶子节点只不存储真实的数据,只存储指引搜索方向的数据项,如17、35并不真实存在于数据表中。

b+树的查找过程

         如图所示,如果要查找数据项29,那么首先会把磁盘块1由磁盘加载到内存,此时发生一次IO,在内存中用二分查找确定29在17和35之间,锁定磁盘块1的P2指针,内存时间因为非常短(相比磁盘的IO)可以忽略不计,通过磁盘块1的P2指针的磁盘地址把磁盘块3由磁盘加载到内存,发生第二次IO,29在26和30之间,锁定磁盘块3的P2指针,通过指针加载磁盘块8到内存,发生第三次IO,同时内存中做二分查找找到29,结束查询,总计三次IO。真实的情况是,3层的b+树可以表示上百万的数据,如果上百万的数据查找只需要三次IO,性能提高将是巨大的,如果没有索引,每个数据项都要发生一次IO,那么总共需要百万次的IO,显然成本非常非常高。

b+树性质

       通过上面的分析,我们知道IO次数取决于b+数的高度h,假设当前数据表的数据为N,每个磁盘块的数据项的数量是m,则有h=㏒(m+1)N,当数据量N一定的情况下,m越大,h越小;而m = 磁盘块的大小 / 数据项的大小,磁盘块的大小也就是一个数据页的大小,是固定的,如果数据项占的空间越小,数据项的数量越多,树的高度越低。这就是为什么每个数据项,即索引字段要尽量的小,比如int占4字节,要比bigint8字节少一半。这也是为什么b+树要求把真实的数据放到叶子节点而不是内层节点,一旦放到内层节点,磁盘块的数据项会大幅度下降,导致树增高。当数据项等于1时将会退化成线性表。

 

 

 

 

 

 

   

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值