字典树又称单词查找树,Trie树,是一种树形结构,是一种哈希树的变种。典型应用是用于统计,排序和保存大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计。它的优点是:利用字符串的公共前缀来减少查询时间,最大限度地减少无谓的字符串比较,查询效率比哈希树高。
它有3个基本性质:
根节点不包含字符,除根节点外每一个节点都只包含一个字符; 从根节点到某一节点,路径上经过的字符连接起来,为该节点对应的字符串; 每个节点的所有子节点包含的字符都不相同。
一、原理: 就是利用字符串的公共前缀(同一个树枝)来减少查询时间,最大限度地减少无谓的字符串比较。
我们依次向空的字典树插入三个单词‘app’,‘call’和‘cafe’后字典树就变为这样:
二、优点:
1.我们从一大堆单词里查找一个单词是否出现,可节省大量时间,建树需要O(单词表的长度),查找只需O(要查询单词的长度),这个时间与一个一个对比是非常可观的。
2.查询一个字符串是否为其他n个字符串的前缀。
3.可以实际应用与搜索引擎和铭感词过滤。
那我们怎么用代码实现呢?
三、思路:这个树我们可以用一个二维数组来存,比如这个字典树要保存的单词是只包含小写字母的,那么我们可以用一个二维数组tree[M][26] 来保存这颗树(a->0,b->1,……,z->25)。这个二维数组记录每个节点编号,根节点编号为0,有人会问,为什么不让存在的节点tree数组都标1,其实我们编号是为了定位!在建树和查找遍历树时,我们是沿着某条树脂一步一步深入的,而且如果不对每个顶点进行区分,我们无法保存每个节点的状态(如该顶点经过的次数,以及是否为一个单词的结尾等等)。
用HDU一题引出模板:
四、题目:
HDU1251
Problem Description
Ignatius最近遇到一个难题,老师交给他很多单词(只有小写字母组成,不会有重复的单词出现),现在老师要他统计出以某个字符串为前缀的单词数量(单词本身也是自己的前缀).
Input
输入数据的第一部分是一张单词表,每行一个单词,单词的长度不超过10,它们代表的是老师交给Ignatius统计的单词,一个空行代表单词表的结束.第二部分是一连串的提问,每行一个提问,每个提问都是一个字符串.
注意:本题只有一组测试数据,处理到文件结束.
Output
对于每个提问,给出以该字符串为前缀的单词的数量.
五、字典树模板:(有详细注释)
#include<bits/stdc++.h>
using namespace std;
int num=0;//顶点编号
int tree[5000005][26];
int sum[5000005];//用于提问:给出以该字符串为前缀的单词的数量.
int book[5000005];//book[i]表示节点i是否是一个单词的结尾,此题显然不用
void insert(char s[])//建字典树
{
int now=0;//当前顶点编号 即根节点编号
for(int i=0;i<strlen(s);i++){
int id=s[i]-'a';//输入为全是小写的字符串
if(!tree[now][id])//不存在就新建节点
tree[now][id]=++num;
now=tree[now][id];//当前顶点更新为上一个节点的孩子节点
sum[now]++;//记录每一个节点访问次数
}
book[now]=1;//给结尾标记
return;
}
int finds(char s[])
{
int now=0;
for(int i=0;i<strlen(s);i++){
int id=s[i]-'a';
if(tree[now][id])//当前节点不为空 即存在
{
now=tree[now][id];
}
else//不存在
return 0;//不能作为每个词的前缀
}
return sum[now];
}
int main()
{
int n;
char s[12];
//建树
while(gets(s)&&s[0]!='\0')//一个空行代表单词表的结束.
{
insert(s);
}
//查询
while(gets(s))
{
printf("%d\n",finds(s));
}
return 0;
}