目录
1、B树
多叉的平衡搜索树,特点:
- 根结点至少有2个孩子
- 所有叶子结点在同一层
- 每个节点保存几个关键字,以及指向几个孩子的指针
- 非叶子结点中的关键字个数 = 孩子个数 - 1
- 一个关键字只会出现在一个节点中
- 搜索可能在非叶子结点结束
- 查找时从根节点递归向下查找,性能是二分查找,最好是O(logn),最坏是树的高度O(n)
2、B+树
特点与优点
(1)结构
- 非叶子节点不存储数据,只存索引,所有数据存在叶子节点
- 所有叶子结点通过指针连在一起
(2)查询效率
- 比B树更稳定O(logn),查询都是从根节点到叶子节点
(3)磁盘IO
- B树:每个节点都存储了索引和数据,索引能存储的索引数少,导致树的高度大,磁盘IO次数多
- B+树:每个节点只存储了索引,所以每个节点能存储的索引数更多,树的高度更小,磁盘IO的次数更小,查询效率更高
(4)数据插入和删除
- B树:需要重新调整树的结构
- B+树:由于所有的数据都存储在叶子节点中,且是链表形式,插入和删除操作只需要在叶子节点上进行,效率更高
(5)范围查询
- B树:无法区间查找
- B+树:叶子是链表形式,可以进行区间查找
(6)适用场景
- B树: 需要快速查找/插入/删除单个数据项的场景。如文件系统
- B+树: 需要进行范围查询的场景。如数据库系统
3、关于mysql使用B+树
好处
- 高效的磁盘I/O操作:非叶子节点仅存储索引,使得每个节点存储更多的键值,降低了树的高度,那么查找、插入、删除会减少了磁盘I/O次数
- 范围查询:数据存储在叶子节点中,形成了一个有序链表,查询时快速地定位到起始叶子节点,并沿着链表顺序访问
- 插入和删除的稳定:插入和删除操作主要集中在非叶子节点上,相对稳定,不需调整树结构
- 易于扩展:可以根据数据量动态调整树的大小,以适应不同规模的数据库
辅助索引
- 每个mysql索引(主键/单字段/组合索引)有一个自己的树,查询时从根向下查询
- 辅助索引:主键索引(Id)存储实际数据,辅助索引(Name)的叶子节点存储的数据实际上是主键的字段值,查询时现在Name索引树中找到id值,再去id索引树找具体数据
- 但是如果使用Name索引查id,select id xx 是可以一次返回的,不需查询Id树了
组合索引
- 索引有 a,b,c 三个字段,这几个字段都会存放到节点
- 先按a排序,再按b排序,再按c排序
- 查询时,先从a比较,从根插找到叶子结点,可能有多条a=1的数据,再比较b,再比较c
mysql为什么不用跳表
- B+树适合磁盘IO:一个节点能放较多索引信息,树的层数低,磁盘IO次数少
- 跳表不适合磁盘IO:一条数据是一个节点,树的层数高,IO操作会很多,更适合redis这样的内存操作
4、mongo 和 mysql 用 B+ 树的区别
(1)mongo 3.2之前用的是B树,后面改为B+树
- 加快查找速度
- 更支持范围查询
(2)lazyB树
mongo的存储引擎 WiredTiger 实现lazyB树,是一种 B+ 树变种
(3)区别
- mysql 作为关系型数据库,更关注连表查询
- mongo 作为文档型数据库,更关注复合字段查询
5、B*树
(1)结构
-
在B+的非根和非叶子结点,增加指向兄弟的指针
(2)空间利用率
- B+树:当一个节点满时,会创建一个新节点,把原节点一半的数据移过去
- B*树:当一个节点满时,如果下一个兄弟没满,直接把一部分数据移到兄弟节点,增加空间利用率
6、红黑树
(1)结构
- 二叉的平衡搜索树
- 根是黑色,叶子是黑色(叶子是nil)
- 红色节点必须有两个黑色子节点
- 不能出现连续两个红色节点
- 从任一节点到叶子节点的路径,都包含相同数量的黑色节点(简称黑高)
- 以上性质避免二叉树退化为单链表(O(n))的情况
(2)效率
- 查找、插入、删除都是O(logn)
- 插入、删除逻辑复杂,需要调整树结构(旋转/变色/递归处理),维护复杂
7、AVL平衡二叉树
(1)结构
任一节点的左子树和右子树都是平衡二叉树,且高度差不能超过1(平衡因子)
(2)效率
- 查找、插入、删除都是O(logn)
- 插入、删除逻辑复杂,需要调整树结构(旋转/递归处理),维护复杂