Hello 大家好,今天,我们来学习map,set的底层:红黑树 红黑树与AVL树一样也是在二叉搜索树的基础上加以一定规则实现的,不过相较于AVL树而言,红黑树的限制没有那么严格,且其效率也是O(logN)级别的。接下来,让我们来逐层了解红黑树吧
1. 红黑树的概念
红黑树是一棵二叉搜索树,他的每个结点增加一个存储位来表示结点的颜色,可以是红色或者黑色。通过对任何一条从根到叶子的路径上各个结点的颜色进行约束,红黑树确保没有一条路径会比其他路径长出2倍(也就是说最长路径<=最短路径*2;),因而是接近平衡的。
那么红黑树是如何确保最长路径不超过最短路径的2倍的呢?
其关键就在于红黑树的四条规则:
1. 每个结点不是红色就是黑色
2. 根结点是黑色的
3. 如果一个结点是红色的,则它的两个孩子结点必须是黑色的,也就是说任意一条路径不会有连续的红色结点。
4. 对于任意一个结点,从该结点到其所有NULL结点的简单路径上,均包含相同数量的黑色结点
• 由规则4可知,从根到NULL结点的每条路径都有相同数量的黑色结点,所以极端场景下,最短路径就就是全是黑色结点的路径,假设最短路径长度为bh(black height)。
• 由规则2和规则3可知,任意一条路径不会有连续的红色结点,所以极端场景下,最长的路径就是一黑一红间隔组成,那么最长路径的长度为2*bh。
• 综合红黑树的4点规则而言,理论上的全黑最短路径和一黑一红的最长路径并不是在每棵红黑树都存在的。假设任意一条从根到NULL结点路径的长度为x,那么bh <= x <= 2*bh。
既然知道了红黑树的规则,那我们也可以来试着画一个红黑树
如上图红黑树,请问它有多少条路径?
答案是9条
说明:《算法导论》等书籍上补充了一条每个叶子结点(NIL)都是黑色的规则。他这里所指的叶子结点不是传统的意义上的叶子结点,而是我们说的空结点,有些书籍上也把NIL叫做外部结点。NIL是为了方便准确的标识出所有路径,《算法导论》在后续讲解实现的细节中也忽略了NIL结点,所以我们知道一下这个概念即可。
了解了红黑树的规则后,我们就可以计算红黑树的效率了
红黑树的效率:
假设N是红黑树树中结点数量,h最短路径的长度,那么2h-1<=N<=2(2*h)-1, 由此推出h ≈ logN ,也就是意味着红黑树增删查改最坏也就是走最长路径2 ∗ logN ,那么时间复杂度还是O(logN)。
在红黑树h固定的情况下,N最大和最小时红黑树都是满二叉树
假定h=2
N最小:
N最大:
红黑树的表达相对AVL树要抽象一些,AVL树通过高度差直观的控制了平衡。红黑树通过4条规则的颜色约束,间接的实现了近似平衡,他们效率都是同一档次,但是相对而言,插入相同数量的结点,红黑树的旋转次数是更少的,因为他对平衡的控制没那么严格。
2 红黑树的结构
红黑树的大体框架与二叉搜索树一样,不过每个结点增加一个存储位来表示结点的颜色
// 枚举值表示颜色
enum Colour
{
RED,
BLACK
};
// 这里我们默认按key结构实现
template<class K>
struct RBTreeNode
{
// 这里更新控制平衡也要加入parent指针
K _k;
RBTreeNode<K>* _left;
RBTreeNode<K>* _right;
RBTreeNode<K>* _parent;
Colour _col;
RBTreeNode(const K& kv)
:_k(_k)
, _left(nullptr)
, _right(nullptr)
, _parent(nullptr)
{}
};
template<class K>
class RBTree
{
typedef RBTreeNode<K> Node;
public:
private:
Node* _root = nullptr;
};
3.红黑树的插入
3.1红黑树树插入一个值的大概过程
-
插入一个值按二叉搜索树规则进行插入,插入后我们只需要观察是否符合红黑树的4条规则。
-
如果是空树插入,新增结点是黑色结点。如果是非空树插入,新增结点必须红色结点(因为非空树插入,新增黑色结点就破坏了规则4,相较于规则3而言规则4是很难维护的,因此我们宁愿破坏规则3也不愿意破坏规则4)。
-
非空树插入后,,如果父亲结点是黑色的,则没有违反任何规则,插入结束
-
非空树插入后,如果父亲结点是红色的,则违反规则3。进一步分析,c是红色,p为红,g必为黑,这三个颜色都固定了,关键的变化看u的情况,需要根据u分为以下几种情况分别处理。
说明:下图中假设我们把新增结点标识为c (cur),c的父亲标识为p(parent),p的父亲标识为g(grandfather), p的兄弟标识为u(uncle)。注意,在红黑树插入过程中,uncle节点是最重要的。
3.2情况1:变色
u存在且为红:
c为红,p为红,g为黑,u存在且为红,则将p和u变黑,g变红。再把g当做新的c,继续往上更新。
分析:因为p和u都是红色,g是黑色,把p和u变黑,左边子树路径各增加一个黑色结点,g再变红,相当于保持g所在子树的黑色结点的数量不变,同时解决了c和p连续红色结点的问题,需要继续往上更新是因为,g是红色,如果g的父亲还是红色,那么就还需要继续处理;如果g的父亲是黑色,则处理结束了;如果g就是整棵树的根,再把g变回黑色。
情况1只变色,不旋转。所以无论c是p的左还是右,p是g的左还是右,都是上面的变色处理方式。
• 跟AVL树类似,图0我们展示了一种具体情况,但是实际中需要这样处理的有很多种情况。
• 图1将以上类似的处理进行了抽象表达,d/e/f代表每条路径拥有hb个黑色结点的子树,a/b代表每条路径拥有hb-1个黑色结点的根为红的子树,hb>=0。
• 图2/图3/图4,分别展示了hb == 0/hb == 1/hb == 2的具体情况组合分析,当hb等于2时,这里组合情况上百亿种,这些样例是帮助我们理解,不论情况多少种,多么复杂,处理方式一样的,变色再继续往上处理即可,所以我们只需要看抽象图即可。
3.3情况2:单旋+变色
c为红,p为红,g为黑,u不存在或者u存在且为黑,u不存在,则c一定是新增结点(假设u不存在且c不是新增节点,则c一定是之前的g更新为c的,那么c的子树一定存在黑色节点,与红黑树规则4不符),**u存在且为黑,则c一定不是新增,**c之前是黑色的,是在c的子树中插入,符合情况1,变色将c从黑色变成红色,更新上来的。
分析:p必须变黑,才能解决连续红色结点的问题,u不存在或者是黑色的,这里单纯的变色无法解决问题,需要旋转+变色。
证明u不存在且c不是新增节点不存在:
如图,1路径只有一个黑色节点,不符合规则4
如果p是g的左,c是p的左,那么以g为旋转点进行右单旋,再把p变黑,g变红即可。p变成课这颗树新的根,这样子树黑色结点的数量不变,没有连续的红色结点了,且不需要往上更新,因为p的父亲是黑色还是红色或者空都不违反规则。
u不存在:
u存在且为黑:
如果p是g的右,c是p的右,那么以g为旋转点进行左单旋,再把p变黑,g变红即可。p变成课这颗树新的根,这样子树黑色结点的数量不变,没有连续的红色结点了,且不需要往上更新,因为p的父亲是黑色还是红色或者空都不违反规则
该情况与上面高度相似,就不再过多赘述
3.4情况3:双旋+变色
c为红,p为红,g为黑,u不存在或者u存在且为黑,u不存在,则c一定是新增结点,u存在且为黑,则c一定不是新增,c之前是黑色的,是在c的子树中插入,符合情况1,变色将c从黑色变成红色,更新上来的。
分析:p必须变黑,才能解决,连续红色结点的问题,u不存在或者是黑色的,这里单纯的变色无法解决问题,需要旋转+变色。
如果p是g的左,c是p的右,那么先以p为旋转点进行左单旋,再以g为旋转点进行右单旋,再把c变黑,g变红即可。c变成课这颗树新的根,这样子树黑色结点的数量不变,没有连续的红色结点了,且不需要往上更新,因为c的父亲是黑色还是红色或者空都不违反规则。
u不存在:
u存在且为黑:
如果p是g的右,c是p的左,那么先以p为旋转点进行右单旋,再以g为旋转点进行左单旋,再把c变黑,g变红即可。c变成课这颗树新的根,这样子树黑色结点的数量不变,没有连续的红色结点了,且不需要往上更新,因为c的父亲是黑色还是红色或者空都不违反规则。
与上面高度相似,不再赘述
3.5红黑树的插入代码实现
void RotateR(Node* parent)
{
//将subLR变成parent的左子树,parent变成subL的右子树,subL变成这棵树新的根
Node* subL = parent->_left;
Node* subLR = subL->_right;
//将subLR变成parent的左子树
parent->_left = subLR;
// 需要注意除了要修改孩子指针,还要修改父亲指针
//若subLR不为空,则更新subLR父亲指针,防止出现空指针的解引用
if (subLR)
subLR->_parent = parent;
//parent变成subL的右子树,subL变成这棵树新的根
Node* parentParent = parent->_parent;
subL->_right = parent;
parent->_parent = subL;
// parent有可能是整棵树的根,也可能是局部的子树
// 如果是整棵树的根,要修改_root
// 如果是局部的指针要跟上一层链接
if (parentParent == nullptr)
{
_root = subL;
subL->_parent = nullptr;
}
else
{
if (parent == parentParent->_left)
{
parentParent->_left = subL;
}
else
{
parentParent->_right = subL;
}
subL->_parent = parentParent;
}
}
void RotateL(Node* parent)
{
//将subRL变成parent的右子树,parent变成subR的左子树,subR变成这棵树新的根
Node* subR = parent->_right;
Node* subRL = subR->_left;
//将subRL变成parent的右子树
parent->_right = subRL;
if (subRL)
subRL->_parent = parent;
Node* parentParent = parent->_parent;
//parent变成subR的左子树,subR变成这棵树新的根
subR->_left = parent;
parent->_parent = subR;
if (parentParent == nullptr)
{
_root = subR;
subR->_parent = nullptr;
}
else
{
if (parent == parentParent->_left)
{
parentParent->_left = subR;
}
else
{
parentParent->_right = subR;
}
subR->_parent = parentParent;
}
}
// 旋转代码的实现跟AVL树是一样的,只是不需要更新平衡因子
bool Insert(const K& k)
{
if (_root == nullptr)
{
_root = new Node(k);
_root->_col = BLACK;
return true;
}
Node* parent = nullptr;
Node* cur = _root;
//找插入位置
while (cur)
{
if (cur->_k < k)
{
parent = cur;
cur = cur->_right;
}
else if (cur->_kt > k)
{
parent = cur;
cur = cur->_left;
}
else
{
return false;
}
}
cur = new Node(k);
//插入节点
// 新增结点,颜色给红色
cur->_col = RED;
if (parent->_k < k)
{
parent->_right = cur;
}
else
{
parent->_left = cur;
}
cur->_parent = parent;
while (parent && parent->_col == RED)
{
Node* grandfather = parent->_parent;
if (parent == grandfather->_left)
{
//p是g的左
Node* uncle = grandfather->_right;
if (uncle && uncle->_col == RED)
{
// u存在且为红,则将p和u变黑,g变红,再把g当做新的c继续往上处理
parent->_col = uncle->_col = BLACK;
grandfather->_col = RED;
cur = grandfather;
parent = cur->_parent;
}
else
{
// u存在且为黑或不存在 ->旋转+变色
if (cur == parent->_left)
{
//单旋
//如果p是g的左,c是p的左,那么以g为旋转点进行右单旋,再把p变黑,g变红即可
RotateR(grandfather);
parent->_col = BLACK;
grandfather->_col = RED;
}
else
{
//双旋
//如果p是g的左,c是p的右,那么先以p为旋转点进行左单旋,再以g为旋转点进行右单旋,再把c变黑,g变红即可
RotateL(parent);
RotateR(grandfather);
cur->_col = BLACK;
grandfather->_col = RED;
}
//旋转操作结束后,恢复平衡,不需要往上更新,结束循环
break;
}
}
else
{
//p是g的右
Node* uncle = grandfather->_left;
// 叔叔存在且为红,->变色即可
// u存在且为红,则将p和u变黑,g变红,再把g当做新的c继续往上处理
if (uncle && uncle->_col == RED)
{
parent->_col = uncle->_col = BLACK;
grandfather->_col = RED;
cur = grandfather;
parent = cur->_parent;
}
else
{
// 叔叔不存在或者存在且为黑
// 旋转+变色
if (cur == parent->_right)
{
//如果p是g的右,c是p的右,那么以g为旋转点进行左单旋,再把p变黑,g变红即可
RotateL(grandfather);
parent->_col = BLACK;
grandfather->_col = RED;
}
else
{
//如果p是g的右,c是p的左,那么先以p为旋转点进行右单旋,再以g为旋转点进行左单旋,再把c变黑,g变红即可
RotateR(parent);
RotateL(grandfather);
cur->_col = BLACK;
grandfather->_col = RED;
}
//旋转操作结束后,恢复平衡,不需要往上更新,结束循环
break;
}
}
}
//无需判断更新后的根节点是否为红色,直接令其为黑色,提高效率
_root->_col = BLACK;
return true;
}
4.红黑树的查找
按二叉搜索树逻辑实现即可,搜索效率为 O(logN)
Node* Find(const K& key)
{
Node* cur = _root;
while (cur)
{
if (cur->_k < key)
{
cur = cur->_right;
}
else if (cur->_k > key)
{
cur = cur->_left;
}
else
{
return cur;
}
}
return nullptr;
}
5.红黑树的验证
这里获取最长路径和最短路径,检查最长路径不超过最短路径的2倍是不可行的,因为就算满足这个条件,红黑树也可能颜色不满足规则,当前暂时没出问题,后续继续插入还是会出问题的。所以我们还是去检查4点规则,满足这4点规则,一定能保证最长路径不超过最短路径的2倍。
-
规则1不用检查,枚举颜色类型实现天然保证了颜色不是黑色就是红色。
-
规则2直接检查根即可
-
规则3前序遍历检查,遇到红色结点查孩子不太方便,因为孩子有两个,且不一定存在,反过来检查父亲的颜色就方便多了。
-
规则4前序遍历,遍历过程中用形参记录跟到当前结点的blackNum(黑色结点数量),前序遍历遇到黑色结点就++blackNum,走到空就计算出了一条路径的黑色结点数量。再任意一条路径黑色结点数量作为参考值,依次比较即可。
下面是检查代码:
bool IsBalance()
{
if (_root == nullptr)
return true;
//规则2: 根结点是黑色的
if (_root->_col == RED)
return false;
// 参考值
int refNum = 0;
Node* cur = _root;
//计算最左路径的黑色节点数量
while (cur)
{
if (cur->_col == BLACK)
{
++refNum;
}
cur = cur->_left;
}
return Check(_root, 0, refNum);
}
bool Check(Node* root, int blackNum, const int refNum)
{
//遍历过程中用形参记录跟到当前结点的blackNum(黑色结点数量)
if (root == nullptr)
{
// 前序遍历走到空时,意味着一条路径走完了
//cout << blackNum << endl;
//规则4: 对于任意一个结点,从该结点到其所有NULL结点的简单路径上,均包含相同数量的黑色结点
if (refNum != blackNum)
{
cout << "存在黑色结点的数量不相等的路径" << endl;
return false;
}
return true;
}
//规则3: 如果一个结点是红色的,则它的两个孩子结点必须是黑色的,也就是说任意一条路径不会有连续的红色结点。
// 检查孩子不太方便,因为孩子有两个,且不一定存在,反过来检查父亲就方便多了
if (root->_col == RED && root->_parent->_col == RED)
{
cout << root->_k << "存在连续的红色结点" << endl;
return false;
}
if (root->_col == BLACK)
{
blackNum++;
}
return Check(root->_left, blackNum, refNum)
&& Check(root->_right, blackNum, refNum);
}
6.完整代码运行测试
#include<vector>
#include<iostream>
using namespace std;
// 枚举值表示颜色
enum Colour
{
RED,
BLACK
};
// 这里我们默认按key结构实现
template<class K>
struct RBTreeNode
{
// 这里更新控制平衡也要加入parent指针
K _k;
RBTreeNode<K>* _left;
RBTreeNode<K>* _right;
RBTreeNode<K>* _parent;
Colour _col;
RBTreeNode(const K& k)
:_k(k)
, _left(nullptr)
, _right(nullptr)
, _parent(nullptr)
{}
};
template<class K>
class RBTree
{
typedef RBTreeNode<K> Node;
public:
// 旋转代码的实现跟AVL树是一样的,只是不需要更新平衡因子
void RotateR(Node* parent)
{
//将subLR变成parent的左子树,parent变成subL的右子树,subL变成这棵树新的根
Node* subL = parent->_left;
Node* subLR = subL->_right;
//将subLR变成parent的左子树
parent->_left = subLR;
// 需要注意除了要修改孩子指针,还要修改父亲指针
//若subLR不为空,则更新subLR父亲指针,防止出现空指针的解引用
if (subLR)
subLR->_parent = parent;
//parent变成subL的右子树,subL变成这棵树新的根
Node* parentParent = parent->_parent;
subL->_right = parent;
parent->_parent = subL;
// parent有可能是整棵树的根,也可能是局部的子树
// 如果是整棵树的根,要修改_root
// 如果是局部的指针要跟上一层链接
if (parentParent == nullptr)
{
_root = subL;
subL->_parent = nullptr;
}
else
{
if (parent == parentParent->_left)
{
parentParent->_left = subL;
}
else
{
parentParent->_right = subL;
}
subL->_parent = parentParent;
}
}
void RotateL(Node* parent)
{
//将subRL变成parent的右子树,parent变成subR的左子树,subR变成这棵树新的根
Node* subR = parent->_right;
Node* subRL = subR->_left;
//将subRL变成parent的右子树
parent->_right = subRL;
if (subRL)
subRL->_parent = parent;
Node* parentParent = parent->_parent;
//parent变成subR的左子树,subR变成这棵树新的根
subR->_left = parent;
parent->_parent = subR;
if (parentParent == nullptr)
{
_root = subR;
subR->_parent = nullptr;
}
else
{
if (parent == parentParent->_left)
{
parentParent->_left = subR;
}
else
{
parentParent->_right = subR;
}
subR->_parent = parentParent;
}
}
//插入
bool Insert(const K& k)
{
if (_root == nullptr)
{
_root = new Node(k);
_root->_col = BLACK;
return true;
}
Node* parent = nullptr;
Node* cur = _root;
//找插入位置
while (cur)
{
if (cur->_k < k)
{
parent = cur;
cur = cur->_right;
}
else if (cur->_k > k)
{
parent = cur;
cur = cur->_left;
}
else
{
return false;
}
}
cur = new Node(k);
//插入节点
// 新增结点,颜色给红色
cur->_col = RED;
if (parent->_k < k)
{
parent->_right = cur;
}
else
{
parent->_left = cur;
}
cur->_parent = parent;
while (parent && parent->_col == RED)
{
Node* grandfather = parent->_parent;
if (parent == grandfather->_left)
{
//p是g的左
Node* uncle = grandfather->_right;
if (uncle && uncle->_col == RED)
{
// u存在且为红,则将p和u变黑,g变红,再把g当做新的c继续往上处理
parent->_col = uncle->_col = BLACK;
grandfather->_col = RED;
cur = grandfather;
parent = cur->_parent;
}
else
{
// u存在且为黑或不存在 ->旋转+变色
if (cur == parent->_left)
{
//单旋
//如果p是g的左,c是p的左,那么以g为旋转点进行右单旋,再把p变黑,g变红即可
RotateR(grandfather);
parent->_col = BLACK;
grandfather->_col = RED;
}
else
{
//双旋
//如果p是g的左,c是p的右,那么先以p为旋转点进行左单旋,再以g为旋转点进行右单旋,再把c变黑,g变红即可
RotateL(parent);
RotateR(grandfather);
cur->_col = BLACK;
grandfather->_col = RED;
}
//旋转操作结束后,恢复平衡,不需要往上更新,结束循环
break;
}
}
else
{
//p是g的右
Node* uncle = grandfather->_left;
// 叔叔存在且为红,->变色即可
// u存在且为红,则将p和u变黑,g变红,再把g当做新的c继续往上处理
if (uncle && uncle->_col == RED)
{
parent->_col = uncle->_col = BLACK;
grandfather->_col = RED;
cur = grandfather;
parent = cur->_parent;
}
else
{
// 叔叔不存在或者存在且为黑
// 旋转+变色
if (cur == parent->_right)
{
//如果p是g的右,c是p的右,那么以g为旋转点进行左单旋,再把p变黑,g变红即可
RotateL(grandfather);
parent->_col = BLACK;
grandfather->_col = RED;
}
else
{
//如果p是g的右,c是p的左,那么先以p为旋转点进行右单旋,再以g为旋转点进行左单旋,再把c变黑,g变红即可
RotateR(parent);
RotateL(grandfather);
cur->_col = BLACK;
grandfather->_col = RED;
}
//旋转操作结束后,恢复平衡,不需要往上更新,结束循环
break;
}
}
}
//无需判断更新后的根节点是否为红色,直接令其为黑色,提高效率
_root->_col = BLACK;
return true;
}
//验证
bool IsBalance()
{
if (_root == nullptr)
return true;
//规则2: 根结点是黑色的
if (_root->_col == RED)
return false;
// 参考值
int refNum = 0;
Node* cur = _root;
//计算最左路径的黑色节点数量
while (cur)
{
if (cur->_col == BLACK)
{
++refNum;
}
cur = cur->_left;
}
return Check(_root, 0, refNum);
}
bool Check(Node* root, int blackNum, const int refNum)
{
//遍历过程中用形参记录跟到当前结点的blackNum(黑色结点数量)
if (root == nullptr)
{
// 前序遍历走到空时,意味着一条路径走完了
//cout << blackNum << endl;
//规则4: 对于任意一个结点,从该结点到其所有NULL结点的简单路径上,均包含相同数量的黑色结点
if (refNum != blackNum)
{
cout << "存在黑色结点的数量不相等的路径" << endl;
return false;
}
return true;
}
//规则3: 如果一个结点是红色的,则它的两个孩子结点必须是黑色的,也就是说任意一条路径不会有连续的红色结点。
// 检查孩子不太方便,因为孩子有两个,且不一定存在,反过来检查父亲就方便多了
if (root->_col == RED && root->_parent->_col == RED)
{
cout << root->_k << "存在连续的红色结点" << endl;
return false;
}
if (root->_col == BLACK)
{
blackNum++;
}
return Check(root->_left, blackNum, refNum)
&& Check(root->_right, blackNum, refNum);
}
//遍历
void InOrder()
{
_InOrder(_root);
cout << endl;
}
void _InOrder(Node* root)
{
if (root == nullptr)
return;
_InOrder(root->_left);
cout << root->_k << " ";
_InOrder(root->_right);
}
private:
Node* _root = nullptr;
};
// 测试代码
void TestRBTree1()
{
RBTree<int> t;
// 常规的测试用例
//int a[] = { 16, 3, 7, 11, 9, 26, 18, 14, 15 };
// 特殊的带有双旋场景的测试用例
int a[] = { 4, 2, 6, 1, 3, 5, 15, 7, 16, 14 };
for (auto e : a)
{
t.Insert(e);
}
t.InOrder();
cout << t.IsBalance() << endl;
}
void TestRBTree2()
{
const int N = 10000000;
vector<int> v;
v.reserve(N);
srand(time(0));
for (size_t i = 0; i < N; i++)
{
v.push_back(rand() + i);
}
RBTree<int> t;
for (size_t i = 0; i < v.size(); ++i)
{
t.Insert(v[i]);
}
cout << t.IsBalance() << endl;
}
int main()
{
TestRBTree1();
//TestRBTree2();
return 0;
}
到此,红黑树就讲完了,怎么样,是不是感觉大脑里面多了很多新知识。
如果觉得博主讲的还可以的话,就请大家多多支持博主,收藏加关注,追更不迷路
如果觉得博主哪里讲的不到位或是有疏漏,还请大家多多指出,博主一定会加以改正
博语小屋将持续为您推出文章