为什么会使用B-Tree和B+Tree,而不是二叉树、红黑树
数据结构
说索引之前需要先提到一点,树结构做查找时,最坏情况需要查找的次数是树的高度H,而对于Mysql来说,当数据文件很大时,就需要根据树的节点把对应的数据加载到内存中,也就是I/O。
上面的形容中有几点信息:
树高H影响查找次数;
上一点中的每一次查找还会涉及到磁盘I/O;
记 N 为 B-tree 中的 Key 的数据量,d 为内节点出度的二分之一,则我们可以证实
H \leq \frac{\log_d(N + 1)}{2}
渐进复杂度为
O(H) = O(log_dN)。
d 为内节点出度,表示非根节点和叶子节点拥有最少的子女数,并且规定最大不能超过 2d。注意:这里也有文献会反过来表示,即最大为 d, 最少不能少于
\frac{d}{2}
很显著,树高度H越高查询效率越低。
回到问题上,我相信很多人已经猜到了为什么B树会比二叉树更正当了!但是这只是说明了一个层面的东西,高度越低查询次数越少。
局部性原理与磁盘预读
因为存储介质的特性,磁盘本身存取就比主存慢很多,再加上机械运动耗费,磁盘的存取速度往往是主存的几百分分之一,因而为了提高效率,要尽量减少磁盘I/O。为了达到这个目的,磁盘往往不是严格按需读取,而是每次都会预读,即便只要要一个字节,磁盘也会从这个位置开始,顺序向后读取肯定长度的数据放入内存。这样做的理论依据是计算机科学中著名的局部性原理:当一个数据被用到时,其周围的数据也通常会马上被使用。因为磁盘顺序读取的效率很高(不需要寻道时间&#x