小肥柴慢慢手写数据结构(C篇)(5-1-2 BST的相关操作讨论)

目录

5-1-2-1 讨论的议题

(1)明确BST是一颗有顺序的树,即BST所有节点本质上是已经排序了的,很多文献资料中也称其为有序树、排序树等(planted plane tree,order tree) ;按照黑皮书之前的描述:
<1> 决定BST中节点位置的因素是键值key,当然我们在上一版代码中简单的把节点存储的数据Element直接看做key和val的替代,本帖将区分对待。
<2> 之前实现的BST是key唯一的,即每个元素仅存在一个节点,默认重复key的元素不处理。那么借助这个性质我们可以在后续的学习过程中将不带重复key的BST改造成集合Set,甚至借助key的唯一性改造成映射Map(没有Map概念的小伙伴可以把它理解成若干个键值对的集合)。

(2)既然树中的所有节点是有序的,那么自然会引申出几个问题:
Q1:类似findMax和findMin,实现RemoveMax和RemoveMin,即删除key值最大和key值最小的节点?
Q2:给定一个键值key,能否在给定BST中找到小于或者等于key的最大键值(floor),以及大于或者等于key的最小键值(ceil)?
Q3:在确保key唯一性的前提条件下,能否找到BST中排名为k的节点呢?(select操作)
Q4:反过来,若给定一个节点,是否能找出它在BST中的排名呢?(rank操作,是select的逆操作)
Q5:再进一步,给定一个key的上限hight和一个下限low,能否在BST中找到上下限范围内的所有节点呢?(姑且称之为range操作)

5-1-2-2 BST的升级

(1)为了方便编码实现上述4个问题的解决方案,且考虑到黑皮书中有关key的描述,我们决定将BST的节点struct升级,引入键key,值value(简记为val)的概念,并在节点中存储以当前节点为根的子树的所有节点数(N)

struct Node {
	int Key;
	double Val;
    struct Node *Left;
    struct Node *Right;
    int N;
};

对应生成的树结构示意如下:

【补图】

(2)对应头文件及所含操作如下所示。为了实现范围查找(range),简单包装了一个ArrayList;如果想封装自己的Key,劳烦自己动手修改一下。

#ifndef _Tree_H
#define _Tree_H
#include <stdbool.h>
struct Node {
	int Key;
	double Val;
    struct Node *Left;
    struct Node *Right;
    int N;
};
typedef struct Node *TreeNode;

struct ArrayList {
	int *data;
	int len;
	int capacity;
};
typedef struct ArrayList *List;

TreeNode MakeEmpty(TreeNode T);
bool contains(int key, const TreeNode T);
TreeNode findMin(TreeNode T);
TreeNode findMax(TreeNode T);
int RetrieveKey(TreeNode T);
TreeNode Add(int key, double val, TreeNode T);
TreeNode Remove(int key, TreeNode T);
TreeNode RemoveMin(TreeNode T);
TreeNode RemoveMax(TreeNode T);
TreeNode getCeil(int key, TreeNode T);
TreeNode getFloor(int key, TreeNode T);
TreeNode select(int k, TreeNode T);
int rank(int key, TreeNode T);
List keys(int keyLow, int keyHigh, TreeNode T);
#endif  /* _Tree_H */

【注】为了方便理解添加了bool型,但在老版本编译器上(譬如我的DevC++)没有相关定义,需要引入stdbool.h去解决。

(3)与之前实现简单版BST相同的操的实现比较简单,核心问题有如下几个:
<1> 实际参与比较(compare)的是key不是val。
<2> 无论是添加操作或是删除操作,都需要维护表示以当前节点为根的子树中节点个数N。
<3> 与之前实现Array,Stack等等数据结构里的处理手法一致,在相关操作中维护N域,如果需要获取使用时直接返回该值即可(getSize)
【注】以下代码是对《算法4》中相关章节参考代码的重构。

#include <stdlib.h>
#include <stdio.h>
#include <string.h>
#include "BSTree.h"

#define DEFAULT_CAPACITY (20)

TreeNode MakeEmpty(TreeNode T){
	if(T != NULL){
		MakeEmpty(T->Left);
		MakeEmpty(T->Right);
		free(T);
	}
	return NULL;
}

static int campareKey(int k1, int k2){
	/* return k1 - k2;*/
	if(k1 < k2)
		return -1;
	else if(k1 > k2)
		return 1;
	else
		return 0; 
}

int RetrieveKey(TreeNode T){
	return T == NULL ? INT_MIN : T->Key;
}

static int getSize(TreeNode T){
	return T == NULL ? 0 : T->N;
}

static int reSize(TreeNode T){
	return 1 + getSize(T->Left) + getSize(T->Right);
}

TreeNode Add(int key, double val, TreeNode T){
	if(T == NULL){
		T = malloc(sizeof(struct Node));
		if(T == NULL){
			printf("Create Tree ERROR\n");
			exit(0);
		}
		T->Key = key;
		T->Val = val;
		T->N = 1;
		T->Left = T->Right = NULL;
	} else {
		int cmp = campareKey(key, T->Key);
		if(cmp < 0)
			T->Left = Add(key, val, T->Left);
		else if(cmp >0)
			T->Right = Add(key, val, T->Right);
	} /*else key == T->Key, for repetition case update*/

	T->N = reSize(T);
	return T;
}

static TreeNode find(int key, const TreeNode T){
	if(T == NULL)
		return NULL;
		
	if(key < T->Key)
		return find(key, T->Left);
	else if(key > T->Key)
		return find(key, T->Right);
	else /*key == T->Key get it!*/
		return T;
}

bool contains(int key, const TreeNode T){
	return find(key, T) != NULL;
}

TreeNode findMin(TreeNode T){
	if(T == NULL)
		return NULL;
		
	return (T->Left == NULL) ? T : findMin(T->Left);
}

TreeNode findMax(TreeNode T){
	if(T == NULL)
		return NULL;
	
	return (T->Right == NULL) ? T : findMax(T->Right);
}

TreeNode Remove(int key, TreeNode T){
	if(T == NULL)
		return NULL;
	
	int cmp = campareKey(key, T->Key);
	if(cmp < 0)
		T->Left = Remove(key, T->Left);
	else if(cmp > 0)
		T->Right = Remove(key, T->Right);
	else{
		TreeNode tempCell;
		if(T->Left && T->Right){
			tempCell = findMin(T->Right);
			T->Val = tempCell->Val;
			T->Right = Remove(tempCell->Key, T->Right);
		} else {
			tempCell = T;
			if(T->Left == NULL) /* same as leaf node*/
				T = T->Right;
			else if(T->Right == NULL)
				T= T->Left;
			
			free(tempCell);
		}
	}
	
	if(T)
		T->N = reSize(T);
	
	return T;	
}

5-1-2-3 RemoveMin和RemoveMax

(1)以RemoveMin为例:
i.按照常理,最小key节点肯定左枝(left),但如果当前节点T没有左枝,因为右枝(right)所有节点key值均大于当前节点,那当前节点T就是需要删除的最小key节点,删除之后直接返回右枝即可。
ii.若T存在左枝,递归到左枝继续尝试删除key最小节点。
iii.完成删除动作后,需做一次reSize操作,重新阶段当前节点T以下的节点数量(即以T为根节点的子树中节点数),以维护N值。
(2)RemoveMax则与RemoveMin操作相反,将RemoveMin具体实现中Left和Right镜像互换就能解决问题。
(3)大家还能再次核对一下前一篇的remove实现,对左右叶子(或子树)的节点,删除时可以用左枝最大的节点去替换,也能用右枝最小的节点去替换。

TreeNode RemoveMin(TreeNode T){
	if(T->Left == NULL)
		return T->Right;
	
	T->Left = RemoveMin(T->Left);
	T->N = reSize(T);
	return T; 
}

TreeNode RemoveMax(TreeNode T){
	if(T->Right == NULL)
		return T->Left;
		
	T->Right = RemoveMax(T->Right);
	T->N = reSize(T);
	return T;
}

5-1-2-4 floor和ceil

简单介绍ceil,floor同理镜像即可:
<1> 如果当前节点就是天花板(ceil),直接返回。
<2> 如果当前节点key小于目标key,很自然的去右枝继续递归查找。
<3> 否则,尝试在左枝找到目标key的ceil;若能找到直接返回该ceil节点,否则当前节点就是ceil。
<4> 对找不到ceil或者floor的情况,在RetrieveKey中直接返回INT_MIN。

TreeNode getCeil(int key, TreeNode T){
	if(T == NULL)
		return NULL;
	
	int cmp = campareKey(key, T->Key);
	if(cmp == 0)
		return T;
	
	if(cmp > 0)
		return getCeil(key, T->Right);
	
	TreeNode leftNode = getCeil(key, T->Left);
	if(leftNode != NULL)
		return leftNode;
	else
		return T;
}

TreeNode getFloor(int key, TreeNode T){
	if(T == NULL)
		return NULL;
		
	int cmp = campareKey(key, T->Key);
	if(cmp == 0)
		return T;
		
	if(cmp < 0)
		return getFloor(key, T->Left);
		
	TreeNode rightNode = getFloor(key, T->Right);
	if(rightNode != NULL)
		return rightNode;
	else
		return T;
}

5-1-2-5 select和rank

select操作就是根据给定排名(k)尝试找到对应节点并返回该节点;如果要实现这个操作,必然需要知晓当前节点为根的子树的总节点数。大致思路如下:
<1> 先获取到左子树节点数量t(相当于已经计算出了右子树节点数量)。
<2> 若给定排名k小于t,那么目标节点一定在左枝,递归左枝继续查找;且左枝排序从0开始,排名不变依然为k。
<3> 否则目标节点在右枝,且排名偏移,从t+1开始记,则右枝实际查询目标key排名为 k − ( t + 1 ) = k − t − 1 k-(t+1)=k-t-1 k(t+1)=kt1

TreeNode select(int k, TreeNode T){
	if(T == NULL)
		return NULL;

	int t = getSize(T->Left);
	if(t > k)
		return select(k, T->Left);
	else if(t < k)
		return select(k-t-1, T->Right);
	else
		return T;
}

本质上rank与select互为逆运算,相比select更容易理解,此处不再赘述;需要提醒的是:如果目标key不再树T中,直接返回-1排名。

int rank(int key, TreeNode T){
	if(T == NULL)
		return -1;
	
	if(!contains(key, T))
		return -1;
	
	int cmp = campareKey(key, T->Key);
	if(cmp < 0)
		return rank(key, T->Left);
	else if(cmp > 0)
		return 1 + getSize(T->Left) + rank(key, T->Right);
	else
		return getSize(T->Left);
}

5-1-2-6 range

(1) 用函数 List keys(int keyLow, int keyHigh, TreeNode T) 去解决该问题,即给定一个需要查询key的范围[keyLow,keyHigh],然后找出符合条件的key的集合;实际上,在下一篇我们讨论中序遍历之后,能够找到更加优秀的解决方案。

(2)基于已实现的floor和ceil的手法,可以很容易找到处理思路:
<1> 若keyLow小于当前节点key,则需要继续在左枝查找可能在目标区间内的节点。
<2> 查询完左枝后,若当前节点在查询区间,则添加到输出列表list中。
<3> 若keyHigh大于当前节点key,则需要继续在右枝查找可能在目标区间内的节点。
<4> 简单封装一个ArrayList用于存储过滤出来的key集合。
<5> 可以用类似BFS的思维去理解这三段递归操作,不断扩散查找。

static List createList(){
	List L = malloc(sizeof(struct ArrayList));
	if(L == NULL){
		printf("Out of memery, create List fail\n");
		exit(0);
	}
	
	L->data = malloc(sizeof(int) * DEFAULT_CAPACITY);
	if(L->data == NULL){
		printf( "Out of memery, create list array fail\n" );
	    free(L);
		exit(0);
	}
	memset(L->data, 0, DEFAULT_CAPACITY);

	L->capacity = DEFAULT_CAPACITY;
	L->len = 0;

	return L;	
}

//这里的扩表/缩表操作,其实是本系列第一篇ArrayList中讨论相同问题的参考解决方案。
static int adjust(List list, int newCapacity){
	int *newData = malloc(sizeof(int) * newCapacity);
	if(newData == NULL){
		printf("\nresize array fail!\n");
		return -1;
	}
	memset(newData, 0, newCapacity);
	
	int *tmp = list->data;
	int i;
	for(i = 0; i < list->len; i++)
		newData[i] = list->data[i];
	list->data = newData;
	free(tmp);
	return 0;
}

static void collect(List list, int key){
	if(list == NULL){
		printf("list is null, resize error\n");
		exit(0);
	}
	
	if(list->len == list->capacity && adjust(list, list->capacity << 1) != 0){
		printf("\nadjust list error\n");
		exit(0);
	}
	
	list->data[list->len] = key;
	list->len++;
}

static void getKeys(int keyLow, int keyHigh, TreeNode T, List list){
	if(T == NULL)
		return;
	
	int cmplo = campareKey(keyLow, T->Key);
	int cmphi = campareKey(keyHigh, T->Key);
	if(cmplo < 0)
		getKeys(keyLow, keyHigh, T->Left, list);
	if(cmplo <= 0 && cmphi >= 0)
		collect(list, T->Key);
	if(cmphi > 0)
		getKeys(keyLow, keyHigh, T->Right, list);
}

List keys(int keyLow, int keyHigh, TreeNode T){
	List list = createList();
	getKeys(keyLow, keyHigh, T, list);
	return list;
}

测试代码如下(main.c):

#include <stdio.h>
#include <stdlib.h>
#include "BSTree.h"

void test_rank(int key, TreeNode T){
	printf("key: %d rank is %d\n", key, rank(key, T));
}

void test_range(int low_key, int hight_key, TreeNode T){
	int i, len;
	List ret = keys(low_key, hight_key, T);
    printf("lo=%d , hi=%d, keys:", low_key, hight_key);
    if(ret){
		len = ret->len;
		for(i = 0; i < len; i++)
			printf(" %d ", ret->data[i]);
		free(ret->data);
		free(ret);
	}
	printf("\n");
}

int main(int argc, char *argv[]) {
	TreeNode T;
    int i, j;

    T = MakeEmpty(NULL);
    int arr[] = {21, 33, 0, -7, -15, 8, 40, 60, -100};
    int len = sizeof(arr)/sizeof(arr[0]);
	for(i = 0; i < len; i++){
		int key = arr[i];
		double val = arr[i]+10.0;
    	printf("add key=%d, val=%f\n", key, val);
		T = Add(key, val, T);	
	}
    printf("(1) Min key is %d, Max key is %d\n", RetrieveKey(findMin(T)), RetrieveKey(findMax(T)));

	T = Remove(-200, T);
	T = Remove(22, T);
	printf("(2) Min key is %d, Max key is %d\n", RetrieveKey(findMin(T)), RetrieveKey(findMax(T)));
	
	T = Remove(-100, T);
	T = Remove(60, T);
	printf("(3) Min key is %d, Max key is %d\n", RetrieveKey(findMin(T)), RetrieveKey(findMax(T)));
	
	T = RemoveMax(T);
	T = RemoveMin(T);
	printf("(4) Min key is %d, Max key is %d\n", RetrieveKey(findMin(T)), RetrieveKey(findMax(T)));
    
    printf("\n\n========== test: floor && ceil ==========\n\n");
	int test_keys[] = {21, 2, -3, 70, 53, 27, -101};
	int len_test = sizeof(test_keys)/sizeof(test_keys[0]);
	for(i = 0; i < len_test; i++)
		printf("get %d floor: %d, ceil: %d\n", test_keys[i], 
			RetrieveKey(getFloor(test_keys[i], T)), RetrieveKey(getCeil(test_keys[i], T)));
	
	printf("\n\n========= test: select =================\n\n");
	int k1 = 0;
	printf("select k = %d ,key is: %d\n", k1, RetrieveKey(select(k1, T)));
	int k2 = 3;
	printf("select k = %d ,key is: %d\n", k2, RetrieveKey(select(k2, T)));
	
	printf("\n\n========= test: rank ===============\n\n");
	int test_keys2[] = {21, -7, -101, 500};
	len_test = sizeof(test_keys2)/sizeof(test_keys2[0]);
	for(i = 0; i < len_test; i++)
		test_rank(test_keys2[i], T);
    
    printf("\n\n=========  test: range =========\n");
	test_range(-2, 20, T);
	test_range(-8, 22, T);
	test_range(0, 35, T);
	return 0;
}

运行结果如下图
在这里插入图片描述
在这里插入图片描述

【注】其实BST的节点还能记录更多的信息,比如深度(depth)或者(height),只要是从应用场景出发设计的合理结构都是可用的;我们还能添加一个count字段,用于处理重复插入相同key节点的问题;同理,目前使用key来排除重复插入的机制,在后续的拓展中可以将这一版BST封装成Set(元素唯一性),这里的讨论回应了本帖开头提出的设想。
在这里插入图片描述

5-1-2-7 二分查找的浅显讨论

上一贴讨论的平均深度就是对于随机生成的BST的任意节点的内部路径长度,则可以快速得到BST中的查询时间复杂度就是 O ( l o g N ) O(logN) O(logN);建议大家自己再推导一次,或者参考《算法4》中对应章节的介绍换一个视角去理解这个问题,用不同的符号描述方式去训练一下自己的思维能力。

小结

这篇是在5-1-1和5-2底稿完成后翻看《算法4》及相关文献查缺补漏的结果,个人认为补齐了这块知识点才基本上算吃透了简单BST;目前理论部分的讨论有些单薄,有兴趣的朋友可以去阅读以下《算法导论》和《计算机程序设计艺术》的相关内容给自己加餐;个人建议如最后一小段讨论中建议的那样:既然BST是有序的、可用于二分查找的数据结构,那么现阶段很多讨论就应该围绕着“二分查找”和“排序”两个维度去展开,如此学习收获会更大。

参考文献

[1] 《算法4》
[2] 《黑皮书》

  • 22
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值