Tire字典树
Tire(字典树)是一种数据结构,一般用于统计和存储字符串,至于它的效率我并没有有怎么研究,但是有的大神说它的效率比哈希表高,是一种空间换时间的方式,我们这里采用二维数组来模拟实现Tire树,并进行字符串统计。
比如有一个字符串集合,要存储几个字符串
abc
ahf
cbd
asd
那么利用字典树可以如下存储
下面是一道来自acwing的题目
维护一个字符串集合,支持两种操作:
“I x”向集合中插入一个字符串x;
“Q x”询问一个字符串在集合中出现了多少次。
共有N个操作,输入的字符串总长度不超过 105,字符串仅包含小写英文字母。
输入格式
第一行包含整数N,表示操作数。
接下来N行,每行包含一个操作指令,指令为”I x”或”Q x”中的一种。
输出格式
对于每个询问指令”Q x”,都要输出一个整数作为结果,表示x在集合中出现的次数。
每个结果占一行。
数据范围
1≤N≤2∗104
输入样例:
5
I abc
Q abc
Q ab
I ab
Q ab
输出样例:
1
0
1
这道题我们可以采用Tire树实现,首先可以定义一个二维数组son[N][26],用于存储每个结点的子节点,一维含义为每个结点,二维含义为每个结点连接的子节点。由于题目字符串都是小写字母,总共就26个,所以我们可以设第二维为26,然后再设一个数组cnt[],用于存放某个字符串的个数。
具体的细节解释可以看代码注释
代码如下:
#include<iostream>
using namespace std;
const int N = 100010;
char str[N];
int son[N][26], cnt[N], idx;
void insert(char str[])
{
int p = 0;
for(int i = 0; str[i]; i ++)
{
int u = str[i] - 'a';
if(!son[p][u]) son[p][u] = ++ idx;//idx是全局变量,这样不会导致在cnt中相同字母在相同长度时的冲突
//其实只要插入和查询采用相同的标记方法和存储方法,就不会出错;
p = son[p][u];
//printf("%d*************\n", p);
}
cnt[p] ++;
}
int query(char str[])
{
int p = 0;
for(int i = 0; str[i]; i ++)
{
int u = str[i] - 'a';
if(!son[p][u]) return 0;
p = son[p][u];
}
return cnt[p];
}
int main()
{
int n;
scanf("%d", &n);
char op[2];
while(n--)
{
scanf("%s%s", op, str);
if(op[0] == 'I') insert(str);
else if(op[0] == 'Q') printf("%d\n", query(str));
}
return 0;
}