B+树插入数据逻辑(页分裂问题)

1. 传统B+树页面分裂操作分析

省流概括:原页对半分,提一个到父节点

具体过程:
1,如果结点不存在,则新生成一个结点,作为B+树的根结点,结束。
2,如果结点存在,则查找当前数值应该插入的位置,定位到需要插入到叶子结点,然后插入到叶子结点。
3,插入的结点如果未达到最大数量,结束。如果达到最大数量,则把当前叶子结点对半分裂:[m/2]个放入左结点,剩余放入右结点。
4,将分裂后到右结点的第一个值提升到父结点中。若父结点元素个数未达到最大,结束。若父结点元素个数达到最大,分裂父结点:[m/2]个元素分裂为左结点,m/2-1个分裂为右结点,第[m/2]+1个结点提升为父结点。

1.1 对半分裂策略的优势:

  • 分裂之后,两个页面的空间利用率是一样的;如果新的插入是随机在两个页面中挑选进行,那

么下一次分裂的操作就会更晚触发;

1.2 对半分裂策略的劣势:

  • 空间利用率不高:按照传统50%的页面分裂策略,索引页面的空间利用率在50%左右;
  • 分裂频率较大:针对如上所示的递增插入(递减插入),每新插入两条记录,就会导致最右的叶页面再次发生分裂

2. B+树分裂操作的优化

省流概括:新增节点插入,适合递增索引
(1)针对传统的B+树插入逻辑。你会发现,假如B+树为3阶树,但是分裂后的叶子结点都只有1~2个。如果这个算法应用到数据库索引,假设一个磁盘分页可以存放2千条数据,但是每次分裂后,都只存储1000条数据在磁盘分页中,那么必然会造成磁盘浪费。而且是接近50%的浪费。
(2)B+树的这个设计,是因为插入的结点不是有序的,每次的插入,定位到每个叶子结点的可能性都是有的,所以采用对半分,防止叶子结点频繁分裂造成性能问题。但是索引值一般是自增数值,所以已经分裂过的叶子结点,后面是不会再有结点插入的。所以这部分的浪费是不可接受的。
(3)基于以上考虑,mysql做了一版优化,即叶子结点在分裂时,不再按照对半分,而是保持原有的叶子结点不变,将超出的结点插入新的叶子结点,并把这个结点值,提升到父结点。父结点的分裂逻辑(待考证)。

2.1 优化分裂策略的优势:

  • 索引分裂的代价小:不需要移动记录;
  • 索引分裂的概率降低:如果接下来的插入,仍旧是递增插入,那么需要插入4条记录,才能再次引起页面的分裂。相对于50%分裂策略,分裂的概率降低了一半;
  • 索引页面的空间利用率提高:新的分裂策略,能够保证分裂前的页面,仍旧保持100%的利用率,提高了索引的空间利用率;

2.2 优化分裂策略的劣势:

  • 如果新的插入,不再满足递增插入的条件,而是插入到原有页面,那么就会导致原有页面再次分裂,增加了分裂的概率。因此,此优化分裂策略,仅仅是针对递增递减插入有效,针对随机插入,就失去了优化的意义,反而带来了更高的分裂概率。

3. InnoDB实际实现

  • 在InnoDB的实现中,为每个索引页面维护了一个上次插入的位置,以及上次的插入是递增/递减的标识。根据这些信息,InnoDB能够判断出新插入到页面中的记录,是否仍旧满足递增/递减的约束,若满足约束,则采用优化后的分裂策略;若不满足约束,则退回到50%的分裂策略。

  • mysql还有别的优化,比如叶子结点满了之后,如果该叶子结点后面还有叶子结 点,则不会分裂出新页,而是会将新的数据插入到后续的叶子结点中。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: MySQL 使用 B 树(B-tree)进行数据索引,主要原因是 B 树可以提供良好的性能,同时支持高效的插入、查找和删除操作。 B 树是一种多路平衡查找树,它可以保持树的平衡性,并且每个节点可以包含多个键值对。这使得 B 树可以在一个节点中存储多个数据记录,从而降低了磁盘访问的次数,提高了索引的访问效率。 在 MySQL 中,B 树被广泛用于索引数据表中的数据。它们被用于加速 SELECT、UPDATE 和 DELETE 等查询语句,以及保证数据表的唯一性和外键约束。此外,MySQL 还提供了其他类型的索引,如哈希索引和全文索引,但这些索引通常用于特定的用例,而 B 树索引是最常见和最常用的索引类型之一。 ### 回答2: MySQL 使用B树进行数据索引的原因有以下几点: 1. 高效的搜索性能:B树是一种平衡的多叉树,具有良好的平衡性质。在B树中,每个节点可以容纳更多的关键字,相较于二叉搜索树,B树的高度更低,所以在查找数据时,B树能够减少磁盘I/O操作,并且具有较高的搜索性能。 2. 适应大规模数据存储:MySQL通常用于处理大量数据的存储和检索,而B树的叶节点被设计为可以存储更多的关键字和数据地址信息,因此能够适应大规模数据存储的需求。 3. 支持动态数据插入和删除:B树天然支持动态数据插入和删除。当需要插入或删除数据时,B树可以通过对节点的分裂和合并操作,保持树的平衡性,以保证搜索性能。 4. 支持范围查询:B树的特点之一是有序性,由于数据B树中是按照顺序存储的,所以在执行范围查询时,只需要从B树的根节点开始遍历,只加载需要的数据,而不需要加载整个表的数据,提高了查询效率。 5. 磁盘的利用率高:B树在进行磁盘存储时,将数据的形式存储在磁盘上,每个的大小是固定的。B树能够尽量将节点存储在一个上,减少了存储空间的浪费。 综上所述,MySQL使用B树进行数据索引是为了提供高效的搜索性能、支持大规模数据存储、动态数据插入和删除、范围查询以及磁盘利用率高的优势。 ### 回答3: MySQL 使用 B 树进行数据索引的原因主要有以下几点: 首先,B 树是一种自平衡的多叉树结构,具有较高的平衡性和稳定性。B 树的每个节点可以存储多个关键字和子节点的指针,使得每个节点的规模相对较大,减少了磁盘I/O次数。同时,B 树的层次较低,使得查询时需要的磁盘I/O次数较少,提高了查询效率。 其次,B 树支持高效的范围查询。B 树的关键字按序排列,使得相邻关键字之间的距离很小。这使得使用 B 树进行范围查询时,只需要遍历相邻的节点即可,减少了查询的范围,提高了查询的效率。 此外,B 树还适合在外存储介质如硬盘上使用。硬盘中的数据是按磁道和扇区存储的,每次读取的单位是一个磁道或一个扇区,而不是单个数据项。B 树的每个节点存储的数据量较大,尽可能地填充每个节点,减少了磁盘I/O次数,提高了访问外存的效率。 最后,B 树支持高效的插入和删除操作。B 树的自平衡特性使得插入和删除操作相对简单,并且能够保持树的平衡性,避免了树的过度增长或缩小。这使得 MySQL 在进行大量的插入和删除操作时,能够保持较高的性能和稳定性。 综上所述,MySQL 使用 B 树进行数据索引的选择是为了提高查询的效率、支持范围查询,适应外存储介质以及支持高效的插入和删除操作。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值