字典树解析与模板C++

最新推荐文章于 2024-10-13 11:17:10 发布

卖炫迈的小男孩

最新推荐文章于 2024-10-13 11:17:10 发布

阅读量674

点赞数 1

分类专栏：算法模板文章标签：字典树

本文链接：https://blog.csdn.net/qq_43791377/article/details/104623925

版权

算法模板同时被 2 个专栏收录

17 篇文章 0 订阅

订阅专栏

树

10 篇文章 0 订阅

订阅专栏

字典树又称单词查找树，Trie树，是一种树形结构，是一种哈希树的变种。典型应用是用于统计，排序和保存大量的字符串（但不仅限于字符串），所以经常被搜索引擎系统用于文本词频统计。它的优点是：利用字符串的公共前缀来减少查询时间，最大限度地减少无谓的字符串比较，查询效率比哈希树高。

它有3个基本性质：
根节点不包含字符，除根节点外每一个节点都只包含一个字符；从根节点到某一节点，路径上经过的字符连接起来，为该节点对应的字符串；每个节点的所有子节点包含的字符都不相同。

一、原理： 就是利用字符串的公共前缀（同一个树枝）来减少查询时间，最大限度地减少无谓的字符串比较。

我们依次向空的字典树插入三个单词‘app’，‘call’和‘cafe’后字典树就变为这样：
在这里插入图片描述
二、优点：
1.我们从一大堆单词里查找一个单词是否出现，可节省大量时间，建树需要O(单词表的长度)，查找只需O(要查询单词的长度)，这个时间与一个一个对比是非常可观的。
2.查询一个字符串是否为其他n个字符串的前缀。
3.可以实际应用与搜索引擎和铭感词过滤。

那我们怎么用代码实现呢？

三、思路：这个树我们可以用一个二维数组来存，比如这个字典树要保存的单词是只包含小写字母的，那么我们可以用一个二维数组tree[M][26] 来保存这颗树（a->0,b->1，……，z->25）。这个二维数组记录每个节点编号，根节点编号为0，有人会问，为什么不让存在的节点tree数组都标1，其实我们编号是为了定位！在建树和查找遍历树时，我们是沿着某条树脂一步一步深入的，而且如果不对每个顶点进行区分，我们无法保存每个节点的状态（如该顶点经过的次数，以及是否为一个单词的结尾等等）。

用HDU一题引出模板：
四、题目：
HDU1251
Problem Description
Ignatius最近遇到一个难题,老师交给他很多单词(只有小写字母组成,不会有重复的单词出现),现在老师要他统计出以某个字符串为前缀的单词数量(单词本身也是自己的前缀).

Input
输入数据的第一部分是一张单词表,每行一个单词,单词的长度不超过10,它们代表的是老师交给Ignatius统计的单词,一个空行代表单词表的结束.第二部分是一连串的提问,每行一个提问,每个提问都是一个字符串.

注意:本题只有一组测试数据,处理到文件结束.

Output
对于每个提问,给出以该字符串为前缀的单词的数量.

五、字典树模板：(有详细注释)

#include<bits/stdc++.h>
using namespace std;
int num=0;//顶点编号 
int tree[5000005][26];
int sum[5000005];//用于提问:给出以该字符串为前缀的单词的数量. 
int book[5000005];//book[i]表示节点i是否是一个单词的结尾，此题显然不用 
void insert(char s[])//建字典树 
{
	int now=0;//当前顶点编号 即根节点编号 
	for(int i=0;i<strlen(s);i++){
		int id=s[i]-'a';//输入为全是小写的字符串
		if(!tree[now][id])//不存在就新建节点 
		tree[now][id]=++num;
		now=tree[now][id];//当前顶点更新为上一个节点的孩子节点 
		sum[now]++;//记录每一个节点访问次数 
	}
	book[now]=1;//给结尾标记 
	return;
}
int finds(char s[])
{
	int now=0;
	for(int i=0;i<strlen(s);i++){
		int id=s[i]-'a';
		if(tree[now][id])//当前节点不为空 即存在 
		{
			now=tree[now][id]; 
		}
		else//不存在 
		return 0;//不能作为每个词的前缀 
	}
	return sum[now];
}
int main()
{
    int n;
    char s[12];
    //建树 
    while(gets(s)&&s[0]!='\0')//一个空行代表单词表的结束.
    {
    	insert(s);
	}
	//查询 
	while(gets(s))
	{
		printf("%d\n",finds(s));
	}
    return 0;
}