接触到的一道字典树水题。。真的很水。。摸板题,汉字题直接复制题干了
统计难题
Time Limit: 4000/2000 MS (Java/Others) Memory Limit: 131070/65535 K (Java/Others)
Total Submission(s): 59162 Accepted Submission(s): 20630
Problem Description
Ignatius最近遇到一个难题,老师交给他很多单词(只有小写字母组成,不会有重复的单词出现),现在老师要他统计出以某个字符串为前缀的单词数量(单词本身也是自己的前缀).
Input
输入数据的第一部分是一张单词表,每行一个单词,单词的长度不超过10,它们代表的是老师交给Ignatius统计的单词,一个空行代表单词表的结束.第二部分是一连串的提问,每行一个提问,每个提问都是一个字符串.
注意:本题只有一组测试数据,处理到文件结束.
Output
对于每个提问,给出以该字符串为前缀的单词的数量.
Sample Input
banana band bee absolute acm ba b band abc
Sample Output
2 3 1 0
初步学习字典树,字典树,又称为单词查找树,Tire树,是一种树形结构,它是一种哈希树的变种。
字典树有以下性质
- 根节点不包含字符,除根节点外的每一个子节点都包含一个字符
- 从根节点到某一节点。路径上经过的字符连接起来,就是该节点对应的字符串
- 每个节点的所有子节点包含的字符都不相同
典型应用是用于统计,排序和保存大量的字符串(不仅限于字符串),经常被搜索引擎系统用于文本词频统计。
利用字符串的公共前缀来减少查询时间,最大限度的减少无谓的字符串比较,查询效率比哈希树高。
可以想一下, 比如 aba 和 acc 就可以构造一个字典树,而它们根节点就是 a 然后 一分支延伸出去 是 b --- a,另一支则是 c--c
总之,用这种方法,一点一点从 rt 延伸到 kid 然后在延伸的路上一点点的去比较,速度很快
看一看实际例子
下面是插入单词
const int maxn = 2e6 + 5;
int tree[maxn][30];//一个树 每个tree 有几个子节点
int flag[maxn];//判断最后是否是单词
int tot;//记录节点数目
void _insert(char *str)
{
int len =strlen(str);
int rt=0;//起始为0
for(int i=0;i<len;i++)
{
int id = str[i]-'a';//记录单词的“名次”
if(!tree[rt][id])//判断这个单词是不是出现过
tree[rt][id]=++tot;//没出现过 就记录一下
rt = tree[rt][id];//子节点向下延伸出去
}
flag[rt]=1;//最后记录下这个结尾是字母
}
然后是查找单词
int _find(char *str)
{
int len =strlen(str);
int rt=0;
for(int i=0;i<len;i++)
{
int id = str[i]-'a';//还是老规矩
if(!tree[rt][id])//如果没出现过 就查找不到了
return 0;
rt = tree[rt][id]; // 向下延伸
}
return 1;//找到了
}
大概构建出一个字典树 模型就是这样的
最后别忘了清理一下已经建立的
void init()//清空
{
for(int i=0;i<=tot;i++)
{
flag[i]=false;
for(int j=0;j<10;j++)
tree[i][j]=0;
}
tot=0;
}
这道题就稍微改动一下即可,这道题需要记录前缀,那么我们开一个数组,一路上把出现过的子节点记录,走到最后看一下 sum[ root ] 的得数 就是记录整个查找过程中出现的全部前缀次数和
以下为 AC代码 还需要多多理解啊
#include<iostream>
#include<cstdio>
#include<cstring>
#include<cmath>
#include<algorithm>
using namespace std;
const int maxn = 2e6 + 5;
int tree[maxn][30];
int flag[maxn];
int sum[maxn];
int tot;
void _insert(char *str)
{
int len =strlen(str);
int rt=0;
for(int i=0;i<len;i++)
{
int id = str[i]-'a';
if(!tree[rt][id])
tree[rt][id]=++tot;
sum[tree[rt][id]]++;
rt = tree[rt][id];
}
flag[rt]=1;
}
int _find(char *str)
{
int len =strlen(str);
int rt=0;
for(int i=0;i<len;i++)
{
int id = str[i]-'a';
if(!tree[rt][id])
return 0;
rt = tree[rt][id];
}
return sum[rt];
}
char ss[maxn];
int main()
{
tot=0;
memset(sum,0,sizeof(sum));
while(gets(ss))
{
if(ss[0]=='\0')
break;
_insert(ss);
}
while(gets(ss))
{
printf("%d\n",_find(ss));
}
return 0;
}