B+树和LSM树比较

前言

由于传统的机械磁盘具有快速顺序读写,慢速随机读写的访问特性,为了改变这个特性,文件系统或数据系统通常会对数据进行排序后存储,加快数据检索速度,这就需要保证数据在不断更新、插入、删除保持依然有序,目前最广泛的做法就是使用B+树和LSM树。

B+树

B+树是一种专门针对磁盘存储而优化的N叉排序树,以树节点为单位存储在磁盘中,从根开始查找所需数据所在的节点编号和磁盘位置,将起加载到内存中然后继续查找,直到找到所需的数据。

B+ 树的三个特点:

  1. 节点的子树数和关键字数相同
  2. 非叶子节点仅用作索引,它的关键字和子节点有重复元素
  3. 叶子节点形成有序链表,包含了全部数据,同时符合左小右大的顺序
    在这里插入图片描述
  • B+树改进了B树, 让内结点只作索引使用, 去掉了其中指向data record的指针, 使得每个结点中能够存放更多的key, 因此能有更大的出度. 这有什么用? 这样就意味着存放同样多的key, 树的层高能进一步被压缩, 使得检索的时间更短。
  • B树和B+树,首先从二叉树说起,因为会产生退化现象,提出了平衡二叉树,再提出怎样让每一层放的节点多一些来减少遍历高度,引申出m叉树,m叉搜索树同样会有退化现象,引出m叉平衡树,也就是B树,这时候每个节点既放了key也放了value,怎样使每个节点放尽可能多的key值,以减少遍历高度呢(访问磁盘次数),可以将每个节点只放key值,将value值放在叶子结点,在叶子结点的value值增加指向相邻节点指针,这就是优化后的B+树。
  • 所有叶子节点形成有序链表,便于范围查询,不用每次要检索树。

目前数据库多采用两级索引的B+树,树的层次最多三层,因此可能需要5次磁盘访问才能更新一条记录(三次磁盘访问获得数据索引以及行id,然后再进行一次数据文件读操作及一次数据文件写操作)

代表数据库:MySQL、Oracle等关系型数据库

LSM树

LSM树(Log-Structured Merge Tree)可以看作一个N阶合并树,数据写操作(包括插入、修改、删除)都是内存中进行,并且都会创建一个新记录(修改会记录新的数据值,而删除会记录一个删除标志),而这些数据在内存中仍然是一颗排序树,当数据量超过内存阈值后,会将这个排序树和磁盘最新的排序树合并。当这颗排序树数据量超过内存阈值后,和磁盘上下一级的排序树合并,合并过程中,会用最新更新的数据覆盖旧的数据(或者记录成不同版本)

理论上,可以是内存中树的一部分和磁盘中第一层树做合并,对于磁盘中的树直接做update操作有可能会破坏物理block的连续性,但是实际应用中,一般LSM树有多层,当磁盘中的小树合并成一个大树的时候,可以重新排好顺序,使得block连续,优化读性能。
在这里插入图片描述
LSM树的特点:用读性能来换取写性能,将对数据的修改增量保持在内存中,达到指定的大小限制后将这些修改操作批量写入磁盘

LSM树的核心思想:放弃部分读性能,提高写性能

代表数据库:nessDB、LevelDB、HBase等非关系型数据库

对比

1、当写比读多时,LSM树相比于B+树有更好的性能,因为随着insert操作,为了维护B+树结构,节点分裂。读磁盘的随机读写概率会变大,性能会逐渐减弱。 LSM树相比于B+树,多次单页随机写变成一次多页随机写,复用了磁盘寻道时间,极大提高写性能。不过付出代价就是放弃部分读性能。

2、B+ 树每次都需要查询到叶子节点,查询性能稳定,叶子节点形成有序链表,范围查询方便


参考《大型网站技术架构 核心原理与案例分析》

LSMB+树是两种常见的索引结构,它们在不同的场景下有着不同的性能表现。 LSM(Log-Structured Merge Tree)是一种基于日志结构的状数据结构,主要用于写入密集的场景。它将数据分为多个层级,每个层级都是一个有序的日志文件,最底层是最新的数据。当写入数据时,LSM会将数据追加到最底层的日志文件中,而不是直接更新原始数据。当读取数据时,LSM会先从最顶层的层级开始查找,如果找不到则继续向下查找。由于写入操作只需要追加到日志文件中,而不需要更新原始数据,所以LSM在写入性能上表现较好。但是,在读取操作上可能需要多次磁盘访问,因此在读取性能上相对较差。 B+树是一种平衡的多路搜索,主要用于读取密集的场景。它将数据存储在叶子节点上,并使用指针连接各个叶子节点,形成一个有序的链表。当写入数据时,B+树会按照特定的规则进行插入操作,保持的平衡性。当读取数据时,B+树可以通过二分查找或者顺序遍历的方式快速定位到目标数据。由于B+树的数据存储在叶子节点上,读取操作只需要一次磁盘访问,所以在读取性能上表现较好。但是,在写入操作上可能需要进行节点的分裂和合并,因此在写入性能上相对较差。 综上所述,LSM在写入性能上表现较好,适用于写入密集的场景;而B+树在读取性能上表现较好,适用于读取密集的场景。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值