Problem Description
Ignatius最近遇到一个难题,老师交给他很多单词(只有小写字母组成,不会有重复的单词出现),现在老师要他统计出以某个字符串为前缀的单词数量(单词本身也是自己的前缀).
Input
输入数据的第一部分是一张单词表,每行一个单词,单词的长度不超过10,它们代表的是老师交给Ignatius统计的单词,一个空行代表单词表的结束.第二部分是一连串的提问,每行一个提问,每个提问都是一个字符串.
注意:本题只有一组测试数据,处理到文件结束.
Output
对于每个提问,给出以该字符串为前缀的单词的数量.
Sample Input
banana
band
bee
absolute
acm
ba
b
band
abc
Sample Output
2
3
1
0
分析
这道题考查字典树。字典树又称单词查找树,Trie树,是一种树形结构,是一种哈希树的变种。典型应用是用于统计,排序和保存大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计。它的优点是:利用字符串的公共前缀来减少查询时间,最大限度地减少无谓的字符串比较,查询效率比哈希树高。
如上图存储了abcd,abd,bcd,efg,hi
在Trie树中查找一个关键字的时间与树的节点个数无关,而取决于组成关键字的字符数。
方式一:链表
#include<iostream>
#include<cstring>
using namespace std;
struct Dictree {
Dictree *child[26];//存储26个字母
int n;//存储子节点的个数(包括其本身)
Dictree() {
for(int i = 0; i < 26; i++)
child[i] = 0;
}
} *root;
void insert(char *s)
{
int i = 0,j;
Dictree *cur = root,*newNode;
while(s[i]) {
j = s[i] - 'a';
if(cur->child[j] == 0) {
newNode = new Dictree;
cur->child[j] = newNode;
cur = newNode;
cur->n = 1;
} else {
cur = cur->child[j];
(cur->n)++;
}
i++;
}
}
int find(char *s)
{
int i = 0,j;
Dictree *cur = root;
while(i < strlen(s)) {
j = s[i] - 'a';
if(cur->child[j] != 0)
cur = cur->child[j];
else
return 0;
i++;
}
return cur->n;
}
int main()
{
root = new Dictree;
char s[15];
while(gets(s) && strlen(s) != 0)
insert(s);
while(scanf("%s",s) != EOF)
printf("%d\n",find(s));
return 0;
}
方式二:数组模拟
#include<iostream>
#include<cstring>
using namespace std;
#define N 500000 + 10
int tree[N][26];
int sum[N];
int id;
void insert(char *s)
{
int i = 0,j,rt = 0;
while(s[i]) {
j = s[i] - 'a';
if(tree[rt][j] == 0) tree[rt][j] = ++id;
rt = tree[rt][j];
sum[rt]++;
i++;
}
}
int find(char *s)
{
int i = 0,j,rt = 0;
while(s[i]) {
j = s[i] - 'a';
if(!tree[rt][j]) return 0;
rt = tree[rt][j];
i++;
}
return sum[rt];
}
int main()
{
char s[15];
while(gets(s) && strlen(s) != 0)
insert(s);
while(scanf("%s",s) != EOF)
printf("%d\n",find(s));
return 0;
}