为什么MySQL等主流数据库选择B+树的索引结构?
如何基于索引结构,理解常见的MySQL索引优化思路?
https://monkeysayhi.github.io/2018/03/06/浅谈MySQL的B树索引与索引优化/
https://www.cnblogs.com/lfs2640666960/p/8550452.html
https://blog.csdn.net/waeceo/article/details/78702584
数据库的索引操作不可避免需要执行IO操作,相同数据查询是如何尽量减少IO次数,线性结构直接排除(除非采用hash算法)https://www.cnblogs.com/vicenteforever/articles/1789613.html,
这是就很容易想到树形结构
关系型数据库的索引一般都是B树索引,树的高度就是一次索引的需要执行的IO次数,要想降低树的高度,树的分叉要尽可能多,也就是一次IO操作读的固定数量扇区中存的信息尽量要多,也就是子树索引要尽量多
再次强调:
不要纠结于时间复杂度,与单纯的算法不同,磁盘IO次数才是更大的影响因素。读者可以推导看看,B树与AVL的时间复杂度是相同的,但由于B树的层数少,磁盘IO次数少,实践中B树的性能要优于AVL等二叉树。
假设key、子树节点指针均占用4B,则B树节点最大m * (4 + 4) = 8m B;页面大小4KB。则m = 4 * 1024 / 8m = 512,一个512叉的B树,1000w的数据,深度最大 log(512/2)(10^7) = 3.02 ~= 4。对比二叉树如AVL的深度为log(2)(10^7) = 23.25 ~= 24,相差了5倍以上
另外,B树对局部性原理非常友好。如果key比较小(比如上面4B的自增key),则除了页表的加成,缓存还能进一步预读加速