前置知识:
数据存储在数据库即落在磁盘中,而磁盘的加载速率远远慢于CPU,而提高磁盘性能主要通过减少I/O次数,以及增加单次I/O的有效数据量
在查找数据时,最简单最容易想到的算法优化就是二分查找,及在数据有序的前提下每次找到中间的数据,所查找的数据要么就是中间数据,要么在中间数据的左侧或右侧 话不多说直接上图
如上图,每进行一次二分查找,查找数据的范围就缩小为原来的一半,效率由全扫描的log(n)提升至log2(n),由此递推,多叉树的查询效率可以大大提升。假如每个节点有100个子节点,那么此多叉树的效率可以提升至log100(n),那么三层此种多叉树就可以索引出一百万条数据,千万的数据量也不会超过四层。
所以有如下
优化策略:
- 尽量减少I/O次数,比如使用缓存
- 每次I/O时获取更多的数据
- 每次I/O获取更多有用的数据,相当于间接减少I/O次数
由此B+树横空出世, B+树就是为了拆分索引数据和业务数据的平衡多叉树
在B+树中,非叶子节点之保存索引数据,叶子节点保存索引数据和业务数据,这样就做到了减少非叶子节点的数据量,又保证最终能查询到所需数据。
这样就做到了减少I/O次数,提高了单次I/O的有效数据量。即使用索引可以有效提升查询性能
注:MySQL在InnoDB存储引擎下默认使用B+树作为索引的数据结构,以上分享全部基于此前提