神机百炼2.31-字典树Trie

最新推荐文章于 2024-09-18 12:56:12 发布

starnight531

最新推荐文章于 2024-09-18 12:56:12 发布

阅读量140

点赞数 1

分类专栏： acwing 文章标签：数据结构算法链表 c++ b树

本文链接：https://blog.csdn.net/buptsd/article/details/124810684

版权

acwing 专栏收录该内容

58 篇文章 2 订阅

订阅专栏

本文详细介绍了字典树（Trie）的数据结构及其在字符串集合操作中的应用，包括插入和查询操作。文章通过实例展示了字典树的插入过程，解释了每个节点的存储方式和字母库的作用，并提供了插入和查询的代码实现。同时，文章还澄清了一些关于字典树的常见误区，帮助读者深入理解这一算法。

摘要由CSDN通过智能技术生成

字典树导图

食用指南：

对该算法程序编写以及踩坑点很熟悉的同学可以直接跳转到代码模板查看完整代码
只有基础算法的题目会有关于该算法的原理，实现步骤，代码注意点，代码模板，代码误区的讲解
非基础算法的题目侧重题目分析，代码实现，以及必要的代码理解误区

题目描述：

维护一个字符串集合，支持两种操作：
I x 向集合中插入一个字符串 x；
Q x 询问一个字符串在集合中出现了多少次。
共有 N 个操作，输入的字符串总长度不超过 10⁵，字符串仅包含小写英文字母。

输入格式
第一行包含整数 N，表示操作数。
接下来 N 行，每行包含一个操作指令，指令为 I x 或 Q x 中的一种。

输出格式
对于每个询问指令 Q x，都要输出一个整数作为结果，表示 x 在集合中出现的次数。
每个结果占一行。

数据范围
1≤N≤2∗104
输入样例：
5
I abc
Q abc
Q ab
I ab
Q ab
输出样例：
1
0
1
题目来源：https://www.acwing.com/problem/content/837/

题目分析：

字典树：
字典树只支持两种操作：1，插入字符串；2，查询字符串

插入时遍历树节点插入，查询时遍历树节点查询，两个操作其实是同一个
下面将介绍树结构-字典树(Trie)

算法原理：

模板算法：

传送门：静态单链表

字典树Trie：

1. 字母库：

由于我们一共插入N个节点，每个节点可能有26个字母
所以开一个二维数组：tree[N][26]
每到一个节点就从字母库中取走一行，即26格

1. 存储形式：

字典树树根：
空节点，idx=0，存在就是为了便于遍历树
树上节点：
节点本身存储的是节点的idx序号，但是节点抽取字母库中的一行时，抽取的是tree[idx][26]
支路数组：
每个idx节点对应的tree[idx]行都包含着26个元素，视作从idx节点出发有26条支路

tree[i][j] == k表示从i节点沿着第j个支路路径到达了k节点，则k节点代表字母的是’a’+j

换句话说：tree[当前节点的idx][支路a~z] = 子节点的idx
idx序号：
idx相邻代表的是物理上抽取字母库中相邻的两行

树上节点的相邻判断依靠的支路数组tree[idx][j] == k，则idx的子节点是k
终结数组：
字典树上有很多idx节点，我们遍历时如何判断一个字符串已经读取完全？
当输入完整一个字符串后，我们将字符串最后一个字母对应的节点idx做一个标记
将end[idx] = 1；则说明此处有一字符串结束

2. 算法核心：

字典树上的节点本身存储的是idx序号
每个idx序号都分出26条支路
从树根的空节点开始遍历，当支路数组的x大于0，说明子节点代表字母’a‘+x
遍历过程中依靠的是支路数组的索引来输出字符串
idx仅仅起到连接树上节点的作用
遍历到一节点的idx对应end[idx]=1时，表明一个字符串结束

3. 举例说明：

现在向字典树中插入三个字符串：abc，abcd，adc
从树根idx=0开始插入，以插入abcd 和 acd为例：
用指针p遍历树：p=0
tree[p][‘a’-‘a’] == 0; 该路径未有节点则tree[p][‘a’-‘a’] = ++idx; p=idx;//创建并到达了第一个实节点
tree[p][‘b’-‘a’] == 0; 该路径未有节点则tree[p][‘b’-‘a’] = ++idx; p=idx;//创建并到达了第二个实节点
tree[p][‘c’-‘a’] == 0; 该路径未有节点则tree[p][‘c’-‘a’] = ++idx; p=idx;//创建并到达了第三个实节点
tree[p][‘d’-‘a’] == 0; 该路径未有节点则tree[p][‘d’-‘a’] = ++idx; p=idx;//创建并到达了第四个实节点
abcd插入完成，end[p] = 1;

开始从树根idx=0插入acd,p重置为0
tree[p]/[‘a’-‘a’] == 1 说明空节点到a的路径已经存在，用变量p沿着路走 p =
tree[p]/[‘d’-‘a’] == 0 该路径未有节点则tree[p][‘d’-‘a’] = ++idx; p = idx; //创建并到达了新节点
tree[p]/[‘c’-‘a’] == 0 该路径未有节点则tree[p][‘c’-‘a’] = ++idx; p = idx; //创建并到达了新节点
adc插入完成，end[p] = 1;

4. 插入&查询字符串：

插入时从根节点按照字符串路径遍历树，
遇到某点对应的支路为空，则在支路端++idx创建节点，并到达该节点继续遍历
插入完成后将结尾的节点idx对应end[idx]置为1
查询时从根节点按照字符串路径遍历树
遇到某点对应支路为空，则不存在该字符串；
遍历完毕该字符串end[idx] 为0，则仍然不存在该字符串
给定了字符串相当于给定了路径
和文件管理器路径一样：

写作步骤：

1. 初始化：

字符库必须要tree[N][26];
字符库中每一行同时记录支路对应的下一节点idx
初始树根无下一节点，将支路设为树根自己的idx == 0;
初始无节点，end[]均为0

2. 从树根开始遍历：

利用单个指针p = 0;遍历节点

3. 选择支路：

已经给定字符串，则给定了路径
字符串中每个字母都是一条支路，tree[idx][‘x’ - ‘a’];

4. 从支路继续遍历：

若tree[idx][‘x’-‘a’] == 0，说明这条支路无节点，插入时需要创建节点 ++idx;
若tree[idx][‘x’-‘a’] == k，说明这条支路有节点，p置为这条支路的节点，p=k;

5. 结束标志：

插入时，插入完成将结尾节点idx对应end[idx] = 1;
查询时，就算遍历完成了整个字符串，最后也要看看结尾end[idx]是否为1

代码实现：

插入和查询的核心都是遍历

const int N = 100010;
int idx = 0;
int tree[N][26], end[N];
char str[N];
void insert(char str[]){
	//从根开始
	int p = 0;	
	for(int i=0; str[i]; i++){
		//选择支路
		int u = str[i] - 'a';
		if(!tree[p][u])
			tree[p][u] = ++idx;
		//从支路继续
		p = tree[p][u];
	}
	//结束标记
	end[p]++;
}
int search(char str[]){
	//从根节点开始
	int p = 0;
	for(int i=0; str[i]; i++){
		//选择支路
		int u = str[i] - 'a';
		if (!tree[p][u]){
			return 0;
		}
		//从支路继续
		p = tree[p][u];
	}
	//确定是否结尾
	return end[p];
}