C++第三十三弹---深入理解二叉搜索树：结构、操作与性能

小林熬夜学编程

于 2024-08-09 10:30:36 发布

阅读量778

点赞数 155

分类专栏： C++详解文章标签：算法 c++ C语言数据结构开发语言

本文链接：https://blog.csdn.net/2201_75584283/article/details/140590254

版权

C++详解专栏收录该内容

35 篇文章 13 订阅

订阅专栏

✨个人主页：熬夜学编程的小林

💗系列专栏：【C语言详解】【数据结构详解】【C++详解】

1. 二叉搜索树

2.1 二叉搜索树概念

二叉搜索树又称二叉排序树，它或者是一棵空树，或者是具有以下性质的二叉树:

若它的左子树不为空，则左子树上所有节点的值都小于根节点的值
若它的右子树不为空，则右子树上所有节点的值都大于根节点的值
它的左右子树也分别为二叉搜索树

2.2 二叉搜索树操作

2.2.1.二叉搜索树结构定义

二叉搜索树与数据结构初阶的链式二叉树结构类似，结点由左孩子右孩子与有效数据构成。

结点定义

template<class K>
//struct BinarySearchTreeNode
struct BSTreeNode
{
	BSTreeNode<K>* _left;   // 左孩子
	BSTreeNode<K>* _right;  // 右孩子
	K _key; // 有效数据

	// 构造函数
	BSTreeNode(const K& key)
		:_left(nullptr)
		, _right(nullptr)
		, _key(key)
	{}

};

主体结构定义

template<class K>
class BSTree
{
	// 将结点重命名
	typedef BSTreeNode<K> Node;
public:
	// 插入
	bool Insert(const K& key)
	{}
	// 查找
	bool Find(const K& key)
	{}
	// 删除
	bool Erase(const K& key)
	{}
    // 中序打印
    void InOrder()
    {}

private:
	// 成员变量
	Node* _root = nullptr;
};

2.2.2 二叉搜索树的插入

插入的具体过程如下：

a. 树为空，则直接新增节点，赋值给root指针
b. 树不空，按二叉搜索树性质查找插入位置，插入新节点

bool Insert(const K& key)
{
	Node* parent = nullptr;
	Node* cur = _root;
	// cur为空做特殊处理
	if (cur == nullptr)
	{
		_root = new Node(key);
		return true;
	}
	while (cur)
	{
		// 插入值更大则插入到右边
		if (cur->_key < key)
		{
			parent = cur;
			cur = cur->_right;
		}
		// 小则在左边
		else if (cur->_key > key)
		{
			parent = cur;
			cur = cur->_left;
		}
		// 二叉搜索树默认不能冗余，因此相等则返回false
		else
		{
			return false;
		}
	}
	// 为空则找到插入位置 需要先找到父亲的位置
	// key值大于父亲的值则在右侧
	cur = new Node(key);
	if (parent->_key < key)
	{
		parent->_right = cur;
	}
	else
	{
		parent->_left = cur;
	}
	return true;
}

2.2.3 二叉搜索树的查找

查找的具体过程如下：

a、从根开始比较，查找，比根大则往右边走查找，比根小则往左边走查找。
b、最多查找高度次，走到到空，还没找到，这个值不存在。

bool Find(const K& key)
{
	Node* cur = _root;
	while (cur)
	{
		if (cur->_key < key)
		{
			cur = cur->_right;
		}
		else if (cur->_key > key)
		{
			cur = cur->_left;
		}
		else
		{
			return true;
		}
	}
	return false;
}

2.2.4 二叉搜索树的删除

首先查找元素是否在二叉搜索树中，如果不存在，则返回, 否则要删除的结点可能分下面四种情
况：

a. 要删除的结点无孩子结点
b. 要删除的结点只有左孩子结点
c. 要删除的结点只有右孩子结点
d. 要删除的结点有左、右孩子结点

看起来有待删除节点有4中情况，实际情况a可以与情况b或者c合并起来，因此真正的删除过程
如下：

情况b：删除该结点且使被删除节点的双亲结点指向被删除节点的左孩子结点--直接删除
情况c：删除该结点且使被删除节点的双亲结点指向被删除结点的右孩子结点--直接删除
情况d：在它的右子树中寻找中序下的第一个结点(关键码最小)，用它的值填补到被删除节点中，再来处理该结点的删除问题--替换法删除

左子树为空

// 左树为空
if (cur->_left == nullptr)
{
	if (parent->_left == cur)
	{
		parent->_left = cur->_right;
	}
	else
	{
		parent->_right = cur->_right;
	}
	
	delete cur;
}

右子树为空

// 右树为空
else if (cur->_right == nullptr)
{
	if (parent->_left == cur)
	{
		parent->_left = cur->_right;
	}
	else
	{
		parent->_left = cur->_left;
	}
	
	delete cur;
}

左右子树均不为空

左右子树均不为空时，采用替换法删除结点，找左子树的最大值或者右子树的最小值，交换两个结点的值，然后删除替换的结点。

1、正常情况

// 左右树均不为空
else
{
	Node* rightMinParent = nullptr;
	Node* rightMin = cur->_right;
	// 找替换的结点 右子树的最大值
	while (rightMin->_left)
	{
		rightMinParent = rightMin;
		rightMin = rightMin->_left;
	}

	swap(cur->_key, rightMin->_key);
	rightMinParent->_left = rightMin->_right;

	delete rightMin;
}

2、删除结点为根节点

// 左右树均不为空
else
{
	Node* rightMinParent = cur;
	Node* rightMin = cur->_right;
	// 找替换的结点 右子树的最大值
	while (rightMin->_left)
	{
		rightMinParent = rightMin;
		rightMin = rightMin->_left;
	}

	swap(cur->_key, rightMin->_key);
	//rightMinParent->_left = rightMin->_right;
	if (rightMinParent->_left == rightMin)
	{
		rightMinParent->_left = rightMin->_right;
	}
	else
	{
		rightMinParent->_right = rightMin->_right;
	}
	delete rightMin;
}

左子树为空且删除根节点

修改左子树的为空的代码即可。

// 左树为空
if (cur->_left == nullptr)
{
	//if (parent == nullptr)
	if (cur == _root)// 删除的是根节点
	{
		_root = cur->_right;
	}
	else // 不是根节点
	{
		if (parent->_left == cur)
		{
			parent->_left = cur->_right;
		}
		else
		{
			parent->_right = cur->_right;
		}
	}
	delete cur;
}

右子树为空且删除根节点

// 右树为空
else if (cur->_right == nullptr)
{
	if (cur == _root)// 删除根节点
	{
		_root = cur->_left;
	}
	else// 不是根节点
	{
		if (parent->_left == cur)
		{
			parent->_left = cur->_right;
		}
		else
		{
			parent->_left = cur->_left;
		}
	}
	delete cur;
}

删除函数完整代码

bool Erase(const K& key)
{
	Node* parent = nullptr;
	Node* cur = _root;
	while (cur)
	{
		if (cur->_key < key)
		{
			parent = cur;
			cur = cur->_right;
		}
		else if (cur->_key > key)
		{
			parent = cur;
			cur = cur->_left;
		}
		else
		{
			// 删除
			// 左树为空
			if (cur->_left == nullptr)
			{
				//if (parent == nullptr)
				if (cur == _root)// 删除的是根节点
				{
					_root = cur->_right;
				}
				else // 不是根节点
				{
					if (parent->_left == cur)
					{
						parent->_left = cur->_right;
					}
					else
					{
						parent->_right = cur->_right;
					}
				}
				delete cur;
			}
			// 右树为空
			else if (cur->_right == nullptr)
			{
				if (cur == _root)// 删除根节点
				{
					_root = cur->_left;
				}
				else// 不是根节点
				{
					if (parent->_left == cur)
					{
						parent->_left = cur->_right;
					}
					else
					{
						parent->_left = cur->_left;
					}
				}
				delete cur;
			}
			// 左右树均不为空
			else
			{
				Node* rightMinParent = cur;
				Node* rightMin = cur->_right;
				// 找替换的结点 右子树的最大值
				while (rightMin->_left)
				{
					rightMinParent = rightMin;
					rightMin = rightMin->_left;
				}

				swap(cur->_key, rightMin->_key);
				//rightMinParent->_left = rightMin->_right;
				if (rightMinParent->_left == rightMin)
				{
					rightMinParent->_left = rightMin->_right;
				}
				else
				{
					rightMinParent->_right = rightMin->_right;
				}
				delete rightMin;
			}
			return true;
		}
	}
	return false;
}

2.2.5 二叉搜索树的中序遍历

由于成员变量是私有的，因此在类外不能访问根节点，此处中序遍历右三种方式进行遍历。

1、友元 2、Get获取函数 3、套一层函数

此处推荐使用套一层函数，因为更能体现封装效果。

void InOrder()
{
	_InOrder(_root);
	cout << endl;
}
private:
	void _InOrder(Node* root)
	{
		if (root == nullptr)
		{
			return;
		}
		_InOrder(root->_left);
		cout << root->_key << " ";
		_InOrder(root->_right);
	}

测试代码

void TestBSTree1()
{
	int a[] = { 8, 3, 1, 10, 6, 4, 7, 14, 13 };
	BSTree<int> t1;
	for (auto e : a)
	{
		t1.Insert(e);
	}
	t1.InOrder();// 中序遍历，升序
	t1.Erase(3);// 删除3
	t1.InOrder();
	t1.Erase(8);
	t1.InOrder();

	for (auto e : a)
	{
		t1.Erase(e);// 依次删除数组中的数
		t1.InOrder();
	}
}

2.4 二叉搜索树的应用

1. K模型：K模型即只有key作为关键码，结构中只需要存储Key即可，关键码即为需要搜索到的值。
比如：给一个单词word，判断该单词是否拼写正确，具体方式如下：

以词库中所有单词集合中的每个单词作为key，构建一棵二叉搜索树
在二叉搜索树中检索该单词是否存在，存在则拼写正确，不存在则拼写错误。

2. KV模型：每一个关键码key，都有与之对应的值Value，即<Key, Value>的键值对。该种方式在现实生活中非常常见：

比如英汉词典就是英文与中文的对应关系，通过英文可以快速找到与其对应的中文，英文单词与其对应的中文<word, chinese>就构成一种键值对；
再比如统计单词次数，统计成功后，给定单词就可快速找到其出现的次数，单词与其出现次数就是<word, count>就构成一种键值对。

KV模型完整实现代码

template<class K, class V>
class BSTree
{
	typedef BSTreeNode<K, V> Node;
public:
	bool Insert(const K& key, const V& value)
	{
		Node* parent = nullptr;
		Node* cur = _root;
		// cur为空做特殊处理
		if (cur == nullptr)
		{
			_root = new Node(key, value);
			return true;
		}
		while (cur)
		{
			// 插入值更大则插入到右边
			if (cur->_key < key)
			{
				parent = cur;
				cur = cur->_right;
			}
			// 小则在左边
			else if (cur->_key > key)
			{
				parent = cur;
				cur = cur->_left;
			}
			// 二叉搜索树默认不能冗余，因此相等则返回false
			else
			{
				return false;
			}
		}
		// 为空则找到插入位置 需要先找到父亲的位置
		// key值大于父亲的值则在右侧
		cur = new Node(key, value);
		if (parent->_key < key)
		{
			parent->_right = cur;
		}
		else
		{
			parent->_left = cur;
		}
		return true;
	}
	Node* Find(const K& key)
	{
		Node* cur = _root;
		while (cur)
		{
			if (cur->_key < key)
			{
				cur = cur->_right;
			}
			else if (cur->_key > key)
			{
				cur = cur->_left;
			}
			else
			{
				return cur;
			}
		}
		return nullptr;
	}

	bool Erase(const K& key)
	{
		Node* parent = nullptr;
		Node* cur = _root;
		while (cur)
		{
			if (cur->_key < key)
			{
				parent = cur;
				cur = cur->_right;
			}
			else if (cur->_key > key)
			{
				parent = cur;
				cur = cur->_left;
			}
			else
			{
				// 删除
				// 左树为空
				if (cur->_left == nullptr)
				{
					//if (parent == nullptr)
					if (cur == _root)
					{
						_root = cur->_right;
					}
					else
					{
						if (parent->_left == cur)
						{
							parent->_left = cur->_right;
						}
						else
						{
							parent->_right = cur->_right;
						}
					}
					delete cur;
				}
				// 右树为空
				else if (cur->_right == nullptr)
				{
					if (cur == _root)
					{
						_root = cur->_left;
					}
					else
					{
						if (parent->_left == cur)
						{
							parent->_left = cur->_right;
						}
						else
						{
							parent->_left = cur->_left;
						}
					}
					delete cur;
				}
				// 左右树均不为空
				else
				{
					Node* rightMinParent = cur;
					Node* rightMin = cur->_right;
					// 找替换的结点 右子树的最大值
					while (rightMin->_left)
					{
						rightMinParent = rightMin;
						rightMin = rightMin->_left;
					}

					swap(cur->_key, rightMin->_key);
					//rightMinParent->_left = rightMin->_right;
					if (rightMinParent->_left == rightMin)
					{
						rightMinParent->_left = rightMin->_right;
					}
					else
					{
						rightMinParent->_right = rightMin->_right;
					}
					delete rightMin;
				}
				return true;
			}
		}
		return false;
	}
	// 中序三种方式 1、友元 2、Get获取 3、套一层函数

	void InOrder()
	{
		_InOrder(_root);
		cout << endl;
	}
private:
	void _InOrder(Node* root)
	{
		if (root == nullptr)
		{
			return;
		}
		_InOrder(root->_left);
		cout << root->_key << ":" << root->_value << endl;
		_InOrder(root->_right);
	}
private:
	Node* _root = nullptr;
};

kv模型应用测试

输入单词，查找单词对应的中文翻译

void TestBSTree2()
{
	BSTree<string, string> dict;
	dict.Insert("string", "字符串");
	dict.Insert("left", "左边");
	dict.Insert("insert", "插入");

	string str;
	while (cin >> str)
	{
		// 搜索二叉树结点的地址
		BSTreeNode<string, string>* cur = dict.Find(str);
		if (cur)
		{
			cout << cur->_value << endl;
		}
		else
		{
			cout << "没有此单词" << endl;
		}
	}
}

统计水果的个数

void TestBSTree3()
{
	// 统计水果的个数
	string arr[] = { "苹果", "西瓜", "苹果", "西瓜", "苹果", "苹果", "西瓜",
"苹果", "香蕉", "苹果", "香蕉","苹果","草莓", "苹果","草莓" };
	BSTree<string, int> countTree;
	for (const auto& str : arr)
	{
		//BSTreeNode<string, int>* cur = countTree.Find(str);
		auto cur = countTree.Find(str);
		// 没有该水果则插入
		if (cur == nullptr)
		{
			countTree.Insert(str, 1);
		}
		// 有该水果则将value值++
		else
		{
			cur->_value++;
		}
	}
	countTree.InOrder();
}

2.5 二叉搜索树的性能分析

插入和删除操作都必须先查找，查找效率代表了二叉搜索树中各个操作的性能。

对有n个结点的二叉搜索树，若每个元素查找的概率相等，则二叉搜索树平均查找长度是结点在二叉搜索树的深度的函数，即结点越深，则比较次数越多。
但对于同一个关键码集合，如果各关键码插入的次序不同，可能得到不同结构的二叉搜索树：

最优情况下，二叉搜索树为完全二叉树(或者接近完全二叉树)，其平均比较次数为：log2 N
最差情况下，二叉搜索树退化为单支树(或者类似单支)，其平均比较次数为：N
问题：如果退化成单支树，二叉搜索树的性能就失去了。那能否进行改进，不论按照什么次序插入关键码，二叉搜索树的性能都能达到最优？那么我们后续章节学习的AVL树和红黑树就可以上场了。