B+Tree
说明:参考前辈的学习成果加上一些自己的理解,原文地址:https://www.2cto.com/database/201708/671266.html
1.有几个关键字就有几个子节点,这点与B树不同,B树的子节点个数要比关键字多1
2.内节点不保存数据,只保存索引,B树的内节点会保存索引和数据
3.所有内节点的关键字也都存在叶子节点
4.通过一个单向链表将叶子节点连接起来
通过上面这个图可以看到:1、节点之间有重复关键字,并且叶子节点中存了所有的关键字。2、内节点有几个关键字就有几个子节点。3、叶子节点通过单向链表连接。
重要特性:
在B+Tree中,所有的内节点都不带有数据。这点不同于B-Tree(所有节点都带有关键字和数据或指向数据的指针)
B+Tree相对于B-Tree的优势:
1.查询稳定,因为每次都去叶子节点查。
2.支持更好的范围查询。
3.两者之间所占用的空间大小是一样的,虽然B+Tree的数据存在叶子节点,B-Tree的数据分散到每个内节点,但也都是存在磁盘中,内存占用也是一样的。(个人理解:欢迎指点,因为看到有的博客说B+Tree的叶节点存储数据的方式也是一个优点个人觉得不是这样的,所以有了第3点)
B+Tree应用:索引
引言:数据库的常用操作查询,最基本的是顺序查找,显然效率很低。其次优化查找算法,如二分查找、二叉树查找、但是这些算法对数据都有一定的要求,如二叉查找需要数据有序,二叉树查找需要先构建一棵树(个人观点:使用二叉查找树在数据量大的时候会形成一棵很高很高的树,需要进行很多很多次磁盘IO)。所以数据库系统还维护了一种数据结构(索引),用来指向磁盘上特定的数据。
如上图:1、最左边是数据的物理地址。2、为了加快查找,可以在Col2上用二叉树维护一组索引,索引值指向数据的物理地址。
但是实际中几乎没有用二叉树或红黑树来做索引的。
原因:二叉树太高了,需要的磁盘IO次数太多了。
MyIsam与InnoDB使用的索引:
1.MyIsam使用的B+Tree
叶子节点存放的是物理地址。
MyIsam的主键索引和辅助索引在结构上没有任何区别,只是辅助索引的key可以重复。如下图:在Col2上建立辅助索引。
2.InnoDB的索引也是使用B+Tree,但是使用方式与MyIsam截然不同。
(1) InnoDB的索引文件和数据绑定一起,MyIsam的索引和文件是分开的(叶子节点存的data是数据在磁盘上的地址)。
(2) InnoDB的主键索引在叶子节点存的就是数据。
(3) InnoDB的辅助索引叶子节点存的data是主键索引的值 ,所以通过辅助索引查需要查两次,首先找到主键索引,再用主键索引查。
InnoDb索引结构如下图:
所以:
(1)InnoDB的主键不建议用很长的字符串来充当,因为会使辅助索引变得过大(个人理解:1.辅助索引过大占用的磁盘空间会增加。2.在使用辅助索引查询时,首先要将辅助索引加载到内存,然后根据辅助索引中存的主键索引值,再去查数据,在这个过程中,加载一个1k的数据到内存与加载10k的数据到内存所消耗的时间是不一样的)
(2)使用非单调的字段作为作为主键索引不是一个好选择,因为InnoDB的索引本身是一颗B+Tree,插入一个随机的值会导致树的多次分裂来保持B+Tree的特性。而用单调的字段就不一样了,直接顺序插入到叶子节点。