目录
1. 传统B+树页面分裂操作分析
省流概括:原页对半分,提一个到父节点
具体过程:
1,如果结点不存在,则新生成一个结点,作为B+树的根结点,结束。
2,如果结点存在,则查找当前数值应该插入的位置,定位到需要插入到叶子结点,然后插入到叶子结点。
3,插入的结点如果未达到最大数量,结束。如果达到最大数量,则把当前叶子结点对半分裂:[m/2]个放入左结点,剩余放入右结点。
4,将分裂后到右结点的第一个值提升到父结点中。若父结点元素个数未达到最大,结束。若父结点元素个数达到最大,分裂父结点:[m/2]个元素分裂为左结点,m/2-1个分裂为右结点,第[m/2]+1个结点提升为父结点。
1.1 对半分裂策略的优势:
- 分裂之后,两个页面的空间利用率是一样的;如果新的插入是随机在两个页面中挑选进行,那
么下一次分裂的操作就会更晚触发;
1.2 对半分裂策略的劣势:
- 空间利用率不高:按照传统50%的页面分裂策略,索引页面的空间利用率在50%左右;
- 分裂频率较大:针对如上所示的递增插入(递减插入),每新插入两条记录,就会导致最右的叶页面再次发生分裂
2. B+树分裂操作的优化
省流概括:新增节点插入,适合递增索引
(1)针对传统的B+树插入逻辑。你会发现,假如B+树为3阶树,但是分裂后的叶子结点都只有1~2个。如果这个算法应用到数据库索引,假设一个磁盘分页可以存放2千条数据,但是每次分裂后,都只存储1000条数据在磁盘分页中,那么必然会造成磁盘浪费。而且是接近50%的浪费。
(2)B+树的这个设计,是因为插入的结点不是有序的,每次的插入,定位到每个叶子结点的可能性都是有的,所以采用对半分,防止叶子结点频繁分裂造成性能问题。但是索引值一般是自增数值,所以已经分裂过的叶子结点,后面是不会再有结点插入的。所以这部分的浪费是不可接受的。
(3)基于以上考虑,mysql做了一版优化,即叶子结点在分裂时,不再按照对半分,而是保持原有的叶子结点不变,将超出的结点插入新的叶子结点,并把这个结点值,提升到父结点。父结点的分裂逻辑(待考证)。
2.1 优化分裂策略的优势:
- 索引分裂的代价小:不需要移动记录;
- 索引分裂的概率降低:如果接下来的插入,仍旧是递增插入,那么需要插入4条记录,才能再次引起页面的分裂。相对于50%分裂策略,分裂的概率降低了一半;
- 索引页面的空间利用率提高:新的分裂策略,能够保证分裂前的页面,仍旧保持100%的利用率,提高了索引的空间利用率;
2.2 优化分裂策略的劣势:
- 如果新的插入,不再满足递增插入的条件,而是插入到原有页面,那么就会导致原有页面再次分裂,增加了分裂的概率。因此,此优化分裂策略,仅仅是针对递增递减插入有效,针对随机插入,就失去了优化的意义,反而带来了更高的分裂概率。
3. InnoDB实际实现
-
在InnoDB的实现中,为每个索引页面维护了一个上次插入的位置,以及上次的插入是递增/递减的标识。根据这些信息,InnoDB能够判断出新插入到页面中的记录,是否仍旧满足递增/递减的约束,若满足约束,则采用优化后的分裂策略;若不满足约束,则退回到50%的分裂策略。
-
mysql还有别的优化,比如叶子结点满了之后,如果该叶子结点后面还有叶子结 点,则不会分裂出新页,而是会将新的数据插入到后续的叶子结点中。