字典树又称为Trie Tree。Trie来自于单词retrieval。字典树是一种存储、统计和查找大量字符串的数据结构。如下图显示了一个字典树,其中保存了5个单词:how、howl、what、where和when。
字典树显然是一个树型结构,可以认为除根节点外每个节点对应一个字母,也可以认为每条边对应一个字母。实际上,边和节点都不显示的保存字母,而是以子节点的排序表示字母。假设字典树的字母表就是26个小写英文字母,则对应的字典树就是一个26叉树。每个节点的大儿子就代表字母a,二儿子就代表字母b,依次类推。如上所示的图中,根节点实际上最大可能有26个儿子,只不过其他24个儿子都是空的,只有h和w儿子存在。
除了26叉结构外,每个节点至少还需要额外保存一个数据域,用来表示是否作为某个单词的结尾。例如上图中的w节点,并非叶子节点,但也是其中一个单词的终结,所以必须做出额外标记。
字典树最主要的操作就是插入和查询。插入用来将给定单词插入字典树,查询用来查询给定单词是否在字典树内。从下面的流程中可以看出,插入操作就是O(N),N为单词长度。同样,查询的平均复杂度也是O(N)。均与字典树的规模无关。
- 给定单词word,字典树Tree
- 令loc是Tree的根节点
- for word的每个字母ch
- 计算ch的排序sn
- 如果loc的sn儿子不存在,则为loc创建sn儿子
- 令loc赋值为loc的sn儿子
- 做好loc的额外标记
POJ2503是典型的字典树,事先给定单词和释义,然后给定单词要求输出释义。
#include <cstdio>
#include <cstring>
#define SIZE 1000000
struct node_t{
node_t* child[26];//26个儿子
int idx;//对应解释的序号
}Node[SIZE];
int toUsed = 1;
//idx表示单词对应解释的序号
void insert(char const word[],int idx){
node_t* loc = Node;
for(int i=0;word[i];++i){
int sn = word[i] - 'a';
if ( !loc->child[sn] ) loc->child[sn] = Node + toUsed ++;
loc = loc->child[sn];
}
loc->idx = idx;
}
//查找单词,返回解释的序号,0表示未找到
int find(char const word[]){
node_t* loc = Node;
for(int i=0;word[i];++i){
int sn = word[i] - 'a';
if ( !loc->child[sn] ) return 0;
loc = loc->child[sn];
}
return loc->idx;
}
char A[1000005][12] = {"eh"};
int main(){
char ch[23],word[12];
int idx = 1;
while( gets(ch) && *ch ){
sscanf(ch,"%s%s",A[idx],word);
insert(word,idx);
++idx;
}
while( gets(word) ) printf("%s\n",A[find(word)]);
return 0;
}