高效存储和查找字符串
从图中可以看出 Trie 树包含以下性质:
根节点不包含字符,其他节点包含一个字符。
从根节点到某一节点经过的字符连接起来构成一个字符串。如图中的 him 、 her 、 cat 、 no 、 nova。
一个字符串与 Trie 树中的一条路径对应。
在实现过程中,会在叶节点中设置一个标志,用来表示该节点是否是一个字符串的结尾,本例中用青色填充进行标记。
Trie 树中每个节点存储一个字符,从根节点到叶节点的一条路径存储一个字符串。另外,有公共前缀的字符串,他们的公共前缀会共用节点。如 her、 him 共用 h 节点。
Trie树中有个二维数组 son[N][26],表示当前结点的儿子,如果没有的话,可以等于++idx。Trie树本质上是一颗多叉树,对于字母而言最多有26个子结点。所以这个数组包含了两条信息。比如:son[1][0]=2表示1结点的一个值为a的子结点为结点2;如果son[1][0] = 0,则意味着没有值为a子结点。这里的son[N][26]相当于链表中的ne[N]。
如何生成 Trie 树?
Trie 树的生成过程,就是不断将字符串插入树中。
以插入字符串 him 、 her 、 cat 、 no 、 nova 为例,过程如下:
1 插入 him :
根节点不存在子节点 h,因此创建子节点 h。
在节点 h 的基础上插入第二个字符 i。
节点 h 不存在子节点 i,创建子节点 i。
在节点 i 的基础上插入第三个字符 m。
节点 i 不存在子节点 m,创建子节点 m。并将该节点标记为字符串结束标志,完成 him 字符串插入。
插入 her :
根节点存在子节点 h。不用重新创建子节点 h。
在节点 h 的基础上插入第二个字符 e。
节点 h 不存在子节点 e,创建子节点 e。
在节点 e 的基础上插入第三个字符 r。
节点 e 不存在子节点 r,创建子节点 r。并将该节点标记为字符串结束标志,完成 her 字符串插入。
插入 cat:
根节点不存在子节点 c,因此创建子节点 c。
在节点 c 的基础上插入第二个字符 a。
节点 c 不存在子节点 a,创建子节点 a。
在节点 a 的基础上插入第三个字符 t。
节点 a 不存在子节点 t,创建子节点 t。并将该节点标记为字符串结束标志,完成 cat 字符串插入。
插入 no:
根节点不存在子节点 n,因此创建子节点 n。
在节点 n 的基础上插入第二个字符 o。
节点 n 不存在子节点 o,创建子节点 o。并将该节点标记为字符串结束标志,完成 no 字符串插入。
插入 nova:
根节点存在子节点 n,不用重新创建子节点 n。
在节点 n 的基础上插入第二个字符 o。
节点 n 存在子节点 o,不用重新创建子节点 o。
在节点 o 的基础上插入第三个字符 v。
节点 o 不存在子节点 v,创建子节点 v。
在节点 v 的基础上插入第四个字符 a。
节点 v 不存在子节点 a,创建子节点 a。并将该节点标记为字符串结束标志,完成 nova 字符串插入。
如何删除一个字符串?
删除一个字符串需要考虑的地方较多。
情况一:待删除的字符串末尾为叶节点,且与其它字符串无公共前缀。将节点逐一删除即可,例如删除 cat。
情况二:待删除字符串末尾不是叶节点。将字符串标志位置为 false 即可,例如删除 no 。
情况三:待删除字符串末尾为叶节点,并且中间有其它单词。逐一删除节点,直到待删除节点是另一个字符串的结尾为止,例如删除 nova。
情况四:待删除字符串某一节点还有其它子节点。逐一删除节点,如果待删除节点还有其它子节点,则停止删除,例如删除 him。
Trie 树有什么用?
Trie 树又叫字典树。字典是用来查字的,Trie 树最基本的作用是在树上查找字符串。
例如有 5 个字符串: him 、 her 、 cat 、 no 、 nova 。现在要查找 catch 是否存在。
如果使用暴力的方法,需要用 catch 与这 5 个字符串分别进行匹配,效率较低。
如果将这 5 个字符串存储成 Trie 的结构,只需要顺着路径依次比较,比较完 cat 之后,没有节点与 c 匹配,所以字符串集合中不存在 catch。
void insert(char str[])
{
int p = 0; //从根结点开始遍历
for (int i = 0; str[i]; i ++ )
{
int u =str[i] - 'a';
if (!son[p][u]) son[p][u] = ++ idx; //没有该子结点就创建一个
p = son[p][u]; //走到p的子结点
}
cnt[p] ++; // cnt相当于链表中的e[idx]
}
int son[N][26], cnt[N], idx;
// 0号点既是根节点,又是空节点
// son[][]存储树中每个节点的子节点
// cnt[]存储以每个节点结尾的单词数量
// 插入一个字符串
void insert(char *str)
{
int p = 0;
for (int i = 0; str[i]; i ++ )
{
int u = str[i] - 'a';
if (!son[p][u]) son[p][u] = ++ idx;
p = son[p][u];
}
cnt[p] ++ ;
}
// 查询字符串出现的次数
int query(char *str)
{
int p = 0;
for (int i = 0; str[i]; i ++ )
{
int u = str[i] - 'a';
if (!son[p][u]) return 0;
p = son[p][u];
}
return cnt[p];
}
AcWing 835. Trie字符串统计
维护一个字符串集合,支持两种操作:
I x
向集合中插入一个字符串 x;
Q x
询问一个字符串在集合中出现了多少次。共有 N个操作,所有输入的字符串总长度不超过 105,字符串仅包含小写英文字母。
输入格式
第一行包含整数 N,表示操作数。
接下来 N行,每行包含一个操作指令,指令为 I x
或 Q x
中的一种。
输出格式
对于每个询问指令 Q x
,都要输出一个整数作为结果,表示 x在集合中出现的次数。每个结果占一行。
数据范围
1≤N≤2∗104
输入样例:
5
I abc
Q abc
Q ab
I ab
Q ab
输出样例:
1
0
1
#include<iostream>
using namespace std;
const int N = 100010;
int idx; // 各个节点的编号,根节点编号为0
int son[N][26];//Trie 树本身
//cnt[x] 表示:以 编号为 x 为结尾的字符串的个数
int cnt[N];
int n;
void insert(string s){
int p = 0;//指向根节点
for(int i = 0; i < s.size(); i++){
//将当前字符转换成数字(a->0, b->1,...)
int u = s[i] - 'a';
//如果数中不能走到当前字符
//为当前字符创建新的节点,保存该字符
if(!son[p][u])
// 新节点编号为 idx + 1
son[p][u] = ++idx;
p = son[p][u];
}
//这个时候,p 等于字符串 s 的尾字符所对应的 idx
//cnt[p] 保存的是字符串 s 出现的次数
//故 cnt[p] ++
cnt[p] ++;
}
int query(string s){
int p = 0;//指向根节点
for(int i = 0; i < s.size(); i++){
//将当前字符转换成数字(a->0, b->1,...)
int u = s[i] - 'a';
//如果走不通了,即树中没有保存当前字符
//则说明树中不存在该字符串
if(!son[p][u])
return 0;
//指向下一个节点
p = son[p][u];
}
//循环结束的时候,p 等于字符串 s 的尾字符所对应的 idx
// cnt[p] 就是字符串 s 出现的次数
return cnt[p];
}
int main(){
cin >> n;
string s;
char q;
while(n--){
cin >> q >> s;
if(q == 'I'){
//插入操作
insert(s);
}
else{
//查询操作
cout << query(s) << endl;
}
}
}
作者:Hasity