字典树&&AC自动机---看完应该会...了...吧

最新推荐文章于 2022-09-04 20:33:39 发布

谁抢了我的昵称？

最新推荐文章于 2022-09-04 20:33:39 发布

阅读量1.3k

点赞数 10

分类专栏： #kuangbin带你飞之AC自动机

本文链接：https://blog.csdn.net/weixin_42488861/article/details/105613778

版权

#kuangbin带你飞之AC自动机专栏收录该内容

1 篇文章 0 订阅

订阅专栏

一、字典树

背景知识：

①字典树又称单词查找树，Trie树，是一种树形结构，是一种哈希树的变种。典型应用是用于统计，排序和保存大量的字符串（但不仅限于字符串），所以经常被搜索引擎系统用于文本词频统计。它的优点是：利用字符串的公共前缀来减少查询时间，最大限度地减少无谓的字符串比较，查询效率比哈希树高。其基本操作有：查找、插入和删除,当然删除操作比较少见。----百度词条

②复杂度：Trie树其实是一种用空间换时间的算法，它占用的空间很大，但时间是非常高效的，插入和查询的时间复杂度都是O（1）

-------------------------这是一条分割线-------------------------------

下面让我们来看一下算法流程体会一下字典树的算法思想
-------------------------这是一条分割线-------------------------------

如下图所示，这是一个插入字符串为she、he、say、shr、her的字典树（下面的图~~有点粗糙。。。有人看的话再搞精致一些~~）

ps:图中root表示根节点,不代表任何字符

接下来是基本操作：

1.插入

还是上面那幅图

首先，根节点是肯定不存在字符的。

①开始插入吧，首先是she，我们发现根节点的子节点没有存在s，可以插入，s的子节点不存在h，可以插入，h的子节点不存在e，可以插入，如图：

②我们再插入shr，这时候我们发现根节点的子节点存在s，于是可以和他共享这个节点，记住共享这个词，

继续插入h，发现s的子节点已存在h，于是可以继续共享，最后插入r，我们发现h的子节点中没有r这个字符，于是可以插入

最后变成这样

发现了什么性质了吗？

1.我们插入的时候是从根节点的下一层即子节点开始插入的

2.插入字符前，先检查这一层中是否存在同一个字符，若存在，则共享，若不存在，则新建一个子节点

void bulid_trie(){
	
	int len=s.length();
	int idx=0;//当前字母编号 
	
	for(int i=0;i<len;++i){
		if(star[idx].son[s[i]-'a']==0){//这个节点不存在 
			star[idx].son[s[i]-'a']=++flag;//那么就新建一个节点 
		}
		idx=star[idx].son[s[i]-'a'];//更新位置以便插入下一个节点 
	}
	
}

2.查询

查询操作和插入差不多，就是不用新建子节点而已

例如我们查询she，字母编号分别为1，2，3

从根节点开始，如果根节点的子节点存在s，则更新当前位置为s的编号(1)，继续查找s的子节点是否存在h，存在，更新位置为2，继续查找h的子节点是否存在e，存在，更新位置，然后发现字符串查询完毕，退出循环体，查询结束。

以下代码是查询时记录此字符串被查询了几次

int query(){
	
	int len=s.length();
	int idx=0;//当前字母编号 
	for(int i=0;i<len;++i){
		//不存在这个字母说明不存在此单词，所以返回0
		if(star[idx].son[s[i]-'a']==0)
		return 0; 
		idx=star[idx].son[s[i]-'a'];
	}
	star[idx].num++;//此单词被查询了几次 
	return star[idx].num++;
}

根据上面所学知识，我们马上来运用一下吧

P2580 于是他错误的点名开始了 https://www.luogu.org/problem/P2580

思路：根据上面所学知识，我们首先用【插入】的知识构建一颗字典树，通过记录每一个输入的字符串的查询次数（下方代码在结构体中定义了一个变量num，用以记录idx即当前字符编号为结尾的字符串出现的次数），按题意输出即可

#include<iostream>
#include<cstring>
#include<math.h>
#include<stdlib.h>
#include<cstring>
#include<cstdio>
#include<utility>
#include<algorithm>
#include<map>
using namespace std;
typedef long long ll; 
inline int read(){
    int X=0,w=0;char ch=0;
    while(!isdigit(ch)){w|=ch=='-';ch=getchar();}
    while(isdigit(ch))X=(X<<3)+(X<<1)+(ch^48),ch=getchar();
    return w?-X:X;
}
/*------------------------------------------------------------------------*/
const int maxn=1e6;
struct node{
	int num;//该单词结尾遍历完之后的出现次数
	int son[26]; 
}star[maxn*10];
int n,m;
string s;
int flag;
void bulid_trie(){
	
	int len=s.length();
	int idx=0;//当前字母编号 
	
	for(int i=0;i<len;++i){
		if(star[idx].son[s[i]-'a']==0){//这个节点不存在 
			star[idx].son[s[i]-'a']=++flag;//那么就新建一个节点 
		}
		idx=star[idx].son[s[i]-'a'];//更新位置以便插入下一个节点 
	}
	
}
int query(){
	
	int len=s.length();
	int idx=0;//当前字母编号 
	for(int i=0;i<len;++i){
		//不存在这个字母说明不存在此单词，所以返回0
		if(star[idx].son[s[i]-'a']==0)
		return 0; 
		idx=star[idx].son[s[i]-'a'];
	}
	star[idx].num++;//此单词被查询了几次 
	return star[idx].num++;
}
int main()
{	
	ios_base::sync_with_stdio(0); cin.tie(0); cout.tie(0);
    
    //每个字母都有自己的编号 
    cin>>n;
    for(int i=1;i<=n;++i){
    	cin>>s;
    	bulid_trie();
    }
    cin>>m;
    for(int i=1;i<=m;++i){
    	cin>>s;
    	int ans=query();
    	if(ans==1)  printf("OK\n");
		if(ans==0)  printf("WRONG\n");
		if(ans>1)  printf("REPEAT\n");
    }
    return 0;
}

-------------------------这是一条分割线-------------------------------

二、AC自动机

~~当然就是自动AC的一种算法~~

背景知识：

①要学会AC自动机，我们必须知道什么是Trie，也就是字典树。Trie树，又称单词查找树或键树，是一种树形结构，是一种哈希树的变种。典型应用是用于统计和排序大量的字符串（但不仅限于字符串），所以经常被搜索引擎系统用于文本词频统计。

②一个常见的例子就是给出n个单词，再给出一段包含m个字符的文章，让你找出有多少个单词在文章里出现过。

③学过看毛片（KMP）算法的同学应该很快就理解了AC自动机的中心思想，实际上KMP是一种单模匹配算法，而AC自动机是一种多模匹配算法，就是在KMP基础上加了一个字典树

-------------------------这是一条分割线-------------------------------

AC自动机算法步骤分为3步：

1.构造一棵Trie树

2.构造失败指针

3.模式匹配

构造字典树上面讲过了，下面讲第二点和第三点

-------------------------这是一条分割线-------------------------------

AC自动机的精髓是构造失配指针：

1.根节点所连接的第一层字母fail指针指向根节点！！！（划重点）

2.沿着trie上的字符串去构建，每次取出队列元素时，都要遍历26个字母，如果当前取出元素的子节点存在此字母，设为a，则a的失配指针指向父节点失配指针对应a的节点（是fail指针的子节点）

如下图，s的失配指针指向根节点，h指向其父节点失配指针的对应子节点

若不存在该子节点a，则让此点指向父节点失配指针对应a的节点(注意，不是失配指针指向该节点，而是trie树节点指向该节点)

为什么不存在此节点还要让他指向父节点失配指针的对应节点呢？，这是我刚学习的时候一直搞不懂的地方

看个例子，

3个模式串ab,ec，f;文本串abaec，问在文本串中出现几个模式串，output：2

红色是不存在的，为了方便理解（图在下面，旁边的数字表示字母编号）

当我们匹配文本串时，匹配完b节点，发现b节点不存在e，这个时候就可以转移到其父节点b的失配指针（为根节点）所指向的对应子节点e，于是可以继续匹配，如果不这样连接的话，就没法继续往下匹配了

我们假设一下没有连接的情况，即e不指向3，则查询到b时就卡住了，因为节点2并不存在e这个子节点

另外，记住AC自动机是多模式匹配算法，这样构建fail指针的目的是为了让匹配时可以一直在trie树上面跳

当前节点匹配失败时可以通过fail指针跳转到其他节点，不用回溯就可以一直匹配下去了

每个节点的失配指针所指向的深度永远是比i小的，因为fail所指向的是永远是后缀

void getFail(){
    queue<int>q;
    for(int i=0;i<26;++i){
    	if(tree[0].son[i]){
    		//括号里面那个是字母编号 
    		tree[tree[0].son[i]].fail=0;//指向根节点
			q.push(tree[0].son[i]); //入队 
    	}
    }
    while(!q.empty()){
    	
    	int now=q.front();
    	q.pop();
    	for(int i=0;i<26;++i){
    		
    		if(tree[now].son[i]){
    			
    			//指向他父亲节点所指向的节点----对应的子节点 
    			//now是父亲节点，fail[now]则是父亲节点失配指针所指向的节点 
    			//这里为什么要这样呢？
				//此子节点连接上fail所指向的对应节点，可同时判断以当前匹配的文本串字母
				// 为结尾的字符串有多少个 ，fail指向的节点永远是已匹配的字符串的后缀 
    			tree[tree[now].son[i]].fail=tree[tree[now].fail].son[i];
    			q.push(tree[now].son[i]);
    		}
    		//不存在这个子节点
    		else  //fail[tree[now].son[i]]=tree[fail[now]].son[i];
    		
    		tree[now].son[i]=tree[tree[now].fail].son[i];
    		//当前节点的这个子节点指向
            //父亲节点fail指针的这个子节点 
    	}
    	
    }
    
}

恭喜你硬着头皮看完了我的长篇大论，据说看完点赞+评论的人工资都会翻倍！！！会脱单！！！比赛拿大奖！！！

扯了一堆挺辛苦的，麻烦大佬们赏个赞

-------------------------这是一条分割线-------------------------------

写的还不错的博客，可作为补充：

首先是字典树：

https://blog.csdn.net/forever_dreams/article/details/81009580

AC自动机：

https://bestsort.cn/2019/04/28/402/

https://www.cnblogs.com/cjyyb/p/7196308.html

https://blog.csdn.net/weixin_42146061/article/details/99584227