二叉树的结构出发
首先从二叉树的结构来说,二叉树的结构是从它的第一个元素开始定根节点,往后插入的数据会跟根节点的值做比较,如果值比根节点的值大则会放到右边,成为右子节点,反之,则插入到左边,成为左子节点
结论
从上面二叉树的结构可以得到以下结论:如果第一个插入的数据的值比较小,往后插入的数据的值都比第一个插入的数据的值要大,则二叉树会转变成为一颗斜树,斜树的时间复杂度为O(n),效率极低
二叉树的检索是怎么样的,如果我要获取上图G的值,是怎么获取的?
二叉树的检索采用的是二分查找法,因为二叉树的数据是保存在磁盘的,所以每次读取会先将根节点加载到内存中,然后用G的值跟A的值做比较,如果G的值比A的小,则会将A的左子节点的数据加载到内存中(非叶子节点只保存子节点的地址),依次这样读取,直到最后读取到的值是G
从计算机的IO读取原理来看,计算机每次的读取是按页为单位,默认一页的大小为4k,计算机还会利用空间局部性原理,认为你读取的这一页数据,过一会你还会读旁边的那一页,就像是快递小哥,他要去派送A村的快递,他在车装的不只是A村的快递,他还会装B村C村的快递,计算机的读取原理也是如此。
从二叉树的数据结构来看,计算机检索二叉树是按一个节点来检索的,而一个非叶子节点上最多有当前节点的数据和其子节点的地址,这样远远达不到4K的大小,所以根据这一点,二叉树不适合做索引
为什么B+树又适合做索引呢?
从B+树的结构出发:
1、B+数是由B-数演变而来,所以B+数拥有B-数的所有特性
2、B+树的非叶子节点只保存关键字和子节点的地址,而叶子节点保留了当前路节点的所有节点的关键字、数据区和地址,所以要得到节点的数据就要到叶子节点上去获取,所以我们每次对数据的检索的时间都差不多,不像其他树,非叶子节点也有保留数据区,这样子当数据量庞大,当检索第一个跟最后一个的索引时间就相差比较大
2、B+树是一颗多路平衡查找树,由于它是多路的,所以它的高度比其他二叉树都矮,树的高度决定了检索数据的时间复杂度
计算机默认检索的一页是4k,而mysql对这个4k做了调整增加到16k,这个一页是16k,假如这里保存的是一个id的索引树,那id设置为int类型,一个int类型为4个字节,那这一页可以保存的id的个数就可以这样算((16* 1024)/4),所以索引的类型和字节数都决定了数据库检索数据的效率,所以该id树的一个节点可以设置的路数就为((16*1024)/4)路,所以这一页就可以保存这么多数据,一次加载到内存中就可以加载那么多,充分利用了计算机的IO读取性能和空间局部性原理,极大降低了计算机IO的次数
3、B+树的叶子节点上保存一个指针,这个指针指向的是下一个叶子节点的指针,譬如第一路的叶子节点上数据有567这三个树,而第二路有8910,则第一路的7有个指针会指向第二路的8,这样做的好处是使数据自带有顺序性的特性,这个顺序性在我们做一个范围查询时,性能就得到充分的发挥,这个指针也是B-树跟B+树的区别之一