目录
1.红黑树
红黑树(red-black tree),满足以下规则:
- 节点是红色或黑色;
- 根是黑色;
- 所有叶子都是黑色(叶子是NIL节点);
- 每个红色节点必须有两个黑色的子节点(从每个叶子到根的所有路径上不能有两个连续的红色节点);
- 从任一节点到其每个叶子(NIL)的所有简单路径都包含相同数目的黑色节点。
事实上,如上所有的规则都只想做一件事,让二叉树尽可能的平衡。
- 对于定义4,即代表了红黑树中不可能出现两个连续的红色节点,也就是说支树上最多是红黑交替的情况(可以出现连续的黑节点)。
- 对于定义5,结合定义4,即代表红黑树中最长路径最多是最短路径的两倍。红黑树的示意图如下:
2.B-树
所谓m阶B-树,即m路平衡搜索树,满足以下规则:
(1)树中每个结点至多有m 棵子树(注:m指的是树的阶);
(2)若根结点不是叶子结点,则至少有两棵子树(注:根节点至少有两个儿子);
(3)除根结点之外的所有非叶子结点至少有p个子节点(, 为向上取整。);
(4)所有的非叶子结点中包含以下数据:(n,A0,K1,A1,K2,…,Kn,An)
其中:
Ki(i=1,2,…,n)为关键码,且Ki<Ki+1(注:ki是真实数据,存放在线性表当中,且从左至右升序排列)
Ai 为指向儿子的指针(i=0,1,…,n),且指针Ai-1 所指子树中所有结点的关键码均小于Ki (i=1,2,…,n),An 所指子树中所有结点的 关键码均大于Kn。(注:每个ki数据两旁各安放了一个指针,即Ai-1和Ai,左边的子树数据统统小于ki,右边子树的数据统 统大于ki)(注:总体来看指针数量比数据数量多1)
n 为关键码的个数()。
(5)所有的叶子结点都出现在同一层次上,即所有叶节点具有相同的深度,等于树高度。并且不带信息(可以看作是外部结点或查找失败的结点,实际上这些结点不存在,指向这些结点的指针为空)。
由于各节点的分支数介于之间,故m阶B-树也称作(,m)树。以4阶B-树为例,其示意图如下:
3.红黑树与4阶B-树的关系
提升各红节点,使之与其(黑)父亲等高,于是每棵红黑树,都对应一棵4阶B-树((2,4)树 )。
将黑节点与其红孩子视作关键码并合并为超级节点,沿水平方向相邻的每一组节点即恰好构成4阶B树的一个节点。
4.B+树
一个M阶B+树具有如下几个特征:
- 有k个子树的中间节点包含有k个元素(B树中是k-1个元素),每个元素不保存数据,只用来索引,所有数据都保存在叶子节点。
- 所有的叶子结点中包含了全部元素的信息,及指向含这些元素记录的指针,且叶子结点本身依关键字的大小自小而大顺序链接。
- 所有的非终端结点可以看成是索引部分,结点中仅含有其子树根结点中最大(或最小)关键字。
如下是一棵B+树,可以看到每一个父节点的元素都出现在子节点中,是子节点最大(或最小)的元素,如8,15。需要注意根节点的最大元素,也是整个B+树的最大元素,无论插入删除多少元素,始终要保持最大元素在跟节点当中。
卫星数据:指的是索引元素所指向的数据记录,例如数据库中的某一行。在B-树,无论中间节点还是叶子节点都带有卫星数据。 而在B+树当中,只有叶子节点带有卫星数据,其余中间节点仅仅是索引,没有任何数据关联。因为B+树中间节点没有卫星数据,所以同样大小的磁盘页可以容纳更多的节点元素。这意味着,数据量相同的情况下,B+树的结构比B-树更加矮胖,因此查询时IO次数也更少。
需要补充的是,在数据库的聚集索引(Clustered Index)中,叶子节点直接包含卫星数据。在非聚集索引(NonClustered Index)中,叶子节点带有指向卫星数据的指针。
B+树的优势:
- 单一节点存储更多的元素,使得查询的IO次数更少。
- 所有查询都要查找到叶子节点,查询性能稳定。
- 所有叶子节点形成有序链表,便于范围查询。
5.各类树的应用场景
AVL树:平衡二叉树,一般是用平衡因子差值决定并通过旋转来实现,左右子树树高差不超过1。相比于红黑树,它是严格的平衡二叉树,平衡条件非常严格(树高差只有1),只要插入或删除不满足上面的条件就要通过旋转来保持平衡。由于旋转是非常耗费时间的。因此AVL树适合用于插入删除次数比较少,但查找多的场合。
红黑树:平衡二叉树,通过对任何一条从根到叶子的简单路径上各个节点的颜色进行约束,确保没有一条路径会比其他路径长2倍,因而是近似平衡的。所以相对于严格要求平衡的AVL树来说,它的旋转保持平衡次数较少。用于搜索时,插入删除次数多的情况下我们就用红黑树来取代AVL。(现在部分场景使用跳表来替换红黑树,可搜索“为啥 redis 使用跳表(skiplist)而不是使用 red-black?”)
B-树/B+树:它们特点是一样的,是多路查找树,一般用于数据库系统中,为什么,因为它们分支多层数少呗,都知道磁盘IO是非常耗时的,而像大量数据存储在磁盘中所以我们要有效的减少磁盘IO次数避免磁盘频繁的查找。B+树是B树的变种树,有n棵子树的节点中含有n个关键字,每个关键字不保存数据,只用来索引,数据都保存在叶子节点。是为文件系统而生的。
以上几种树都是有序的,如果你采用合适的算法遍历整个数,可以得到一个有序的列表。这也是为什么如果有数据库索引的情况下,你order by你索引的值,就会速度特别快,因为它并没有给你真的排序,只是遍历树而已。
Trie树:又名单词查找树,一种树形结构,常用来操作字符串。它是不同字符串的相同前缀只保存一份。相对直接保存字符串肯定是节省空间的,但是它保存大量字符串时会很耗费内存(是内存)。(类似于leveldb中block data可分为KV存储区和重启点信息存储区两部分,有共享前缀)
补充:前缀树(prefix tree),后缀树(suffix tree),radix tree(patricia tree, compact prefix tree),crit-bit tree(解决耗费内存问题),以及前面说的double array trie。
- 前缀树:字符串快速检索,字符串排序,最长公共前缀,自动匹配前缀显示后缀。
- 后缀树:查找字符串s1在s2中,字符串s1在s2中出现的次数,字符串s1,s2最长公共部分,最长回文串。
- radix tree:linux内核,nginx。