字典树

字典树又称为Trie Tree。Trie来自于单词retrieval。字典树是一种存储、统计和查找大量字符串的数据结构。如下图显示了一个字典树,其中保存了5个单词:how、howl、what、where和when。

字典树显然是一个树型结构,可以认为除根节点外每个节点对应一个字母,也可以认为每条边对应一个字母。实际上,边和节点都不显示的保存字母,而是以子节点的排序表示字母。假设字典树的字母表就是26个小写英文字母,则对应的字典树就是一个26叉树。每个节点的大儿子就代表字母a,二儿子就代表字母b,依次类推。如上所示的图中,根节点实际上最大可能有26个儿子,只不过其他24个儿子都是空的,只有h和w儿子存在。
除了26叉结构外,每个节点至少还需要额外保存一个数据域,用来表示是否作为某个单词的结尾。例如上图中的w节点,并非叶子节点,但也是其中一个单词的终结,所以必须做出额外标记。
字典树最主要的操作就是插入和查询。插入用来将给定单词插入字典树,查询用来查询给定单词是否在字典树内。从下面的流程中可以看出,插入操作就是O(N),N为单词长度。同样,查询的平均复杂度也是O(N)。均与字典树的规模无关。

  • 给定单词word,字典树Tree
  • 令loc是Tree的根节点
  • for word的每个字母ch
    • 计算ch的排序sn
    • 如果loc的sn儿子不存在,则为loc创建sn儿子
    • 令loc赋值为loc的sn儿子
  • 做好loc的额外标记

POJ2503是典型的字典树,事先给定单词和释义,然后给定单词要求输出释义。

#include <cstdio>
#include <cstring>
#define SIZE 1000000

struct node_t{
    node_t* child[26];//26个儿子
    int idx;//对应解释的序号
}Node[SIZE];
int toUsed = 1;

//idx表示单词对应解释的序号
void insert(char const word[],int idx){
    node_t* loc = Node;
    for(int i=0;word[i];++i){
        int sn = word[i] - 'a';
        if ( !loc->child[sn] ) loc->child[sn] = Node + toUsed ++;
        loc = loc->child[sn];
    }
    loc->idx = idx;
}
//查找单词,返回解释的序号,0表示未找到
int find(char const word[]){
    node_t* loc = Node;
    for(int i=0;word[i];++i){
        int sn = word[i] - 'a';
        if ( !loc->child[sn] ) return 0;
        loc = loc->child[sn];
    }
    return loc->idx;
}
char A[1000005][12] = {"eh"};
int main(){
    char ch[23],word[12];
    int idx = 1;
    while( gets(ch) && *ch ){
        sscanf(ch,"%s%s",A[idx],word);
        insert(word,idx);
        ++idx;
    }
    while( gets(word) ) printf("%s\n",A[find(word)]);
    return 0;
}
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值