从零实现一个数据库(DataBase) Go语言实现版 3.B树: 思路

英文源地址

关于B树和二叉查找树的直觉

我们的第一个直觉来自于平衡二叉树(BST).二叉树是用于排序数据的常用数据结构.在插入或移除键后保持树的良好形状就是’平衡’的意思.如前一章所述, 为了利用"页"(IO的最小单元), 应该使用n叉树而不是二叉树.
b树可以由二叉查找树推广得到.b树的每个节点包含多个键和其他节点的多个链接.在节点中查找键时, 所有键都用于确定下一个子节点.在这里插入图片描述
b树的平衡与二叉查找树不同, 流行的BST树比如红黑树或AVL树时在子树的高度上平衡的(通过旋转).虽然所有的b树叶节点的高度相同, 但b树通过节点的大小来平衡.

  1. 如果一个节点太大而无法放在一个页上, 则将其分为两个节点. 这将增加父节点的大小, 如果根节点被分割, 可能还会增加树的高度.
  2. 如果节点太小, 将尝试将其与兄弟节点合并

b树和嵌套数组

即使你对2-3tree不熟悉, 仍然可以使用嵌套数组获得一些直觉.
让我们从一个排好序的数组开始, 查询可以通过二分法来完成.但更新数组是O(n)的时间复杂度是我们需要解决的问题.更新一个大数组是很糟糕的, 所以我们把它分成更小的数组.假设我们将数组分成sqrt(n)个部分, 每个部分平均包含sqrt(n)个键.
在这里插入图片描述
要查询一个键, 我们必须首先确定哪个部分包含该键, 在sqrt(n)部分上的等分是O(logn).在这之后, 对这部分的键进行平分还是O(logn)-这不比之前差.而更新操作被改善为O(sqrt(n))
这是一个两层排序嵌套数组, 如果我们添加更多的层会怎么样?这是对b树的另一种直观理解.

b树的操作

查询一颗b树和查询一颗二分查找树是一样的.
更新b树更为复杂.从现在开始, 我们将使用b树的一种变体,成为b+树, b+树仅在叶子节点中存储值, 内存节点仅包含键.
从叶子节点开始键插入.叶节点就是键的排序列表.将键插入到叶子中是微不足道的.但是, 插入可能导致节点大小超过页面大小.在这种情况下, 我们需要将叶子节点拆分为2个节点, 每个节点包含一半的键, 以便两个叶子节点都适应一个页大小.
内部节点包含:

  1. 指向其子节点的指针列表
  2. 与指针列表配对的键列表.每个键都是对于子键的第一个键.

将一个叶子节点分成2个节点后, 父节点用新的指针和键替换旧的指针和键. 节点的大小会增加, 这可能会引发进一步的分裂.在这里插入图片描述
根节点分裂后, 会添加一个新的根节点. 这就是b树的生成过程.
键删除与插入相反. 节点永远不会为空, 因为小节点将合并到它的左兄弟或右兄弟节点中去.
当一个非叶子节点的根节点被简化为一个键时, 这个根节点可以被它唯一的子节点取代. 这就是b树收缩的方式.

不可变数据结构

不可变意味着用韵不会就地更新数据.一些类似的术语是’仅追加’, ‘写时复制’和’持久数据结构’('持久’这个词与我们之前讨论的persistence没有任何关系).
例如,在向叶子节点插入键时, 不要就地修改节点, 而是使用来自待更新节点的所有键和新键创建一个新节点.现在, 还必须更新父节点以指向新节点.
同样, 父节点与新指针重复. 在到达根节点之前, 整个路径都被复制了. 这有效地创建了与旧版本共存的树的新版本.
不可变数据结构有几个优势:
1.避免数据损坏, 不可变数据结构不修改现有数据, 它们只是添加新数据, 因此即使更新中断, 旧版本数据也保持完整.
2.容易并发.读操作可以与写操作并发执行, 因为读取操作可以在旧版本上不受影响地工作.

持久化和并发性将在后面地章节中讨论.现在, 我们将首先编写一个不可变地B+树.

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值