AC自动机详解 + 模板

最新推荐文章于 2024-08-04 08:16:57 发布

Frocean_拾月氷海

最新推荐文章于 2024-08-04 08:16:57 发布

阅读量2.3k

点赞数

分类专栏：高级算法文章标签： AC自动机模板字符串匹配

本文链接：https://blog.csdn.net/Frocean/article/details/80866767

版权

高级算法专栏收录该内容

1 篇文章 0 订阅

订阅专栏

KMP 大多是用来解决单串单串匹配的问题的~

AC自动机则是在 KMP 的基础上用来解决一大串里面的许多小串出现次数出现位置出现个数等问题的

Tried树 + KMP + 融合贯通 = AC自动机

首先AC自动机的建立需要一个Tried树然后转化成Tried图

Tried图就是在每个tired树上的每个节点的所有分支(不论存不存在) 连上一条接向树上其他节点的边

接向的位置要连到该前缀上一次匹配的点找最优

Tried树在这里打一下注释见代码

我在这里定义 Tried图为结构体——

struct tree { //大小之类的看情况吧最多和全部被查询字符串长度总和一样根据空间大小适当合理地调整减他一大半
int to[26]; //该位字母连向的下一位字母节点 (此处26是标号 'a' ~ 'z'的需根据题目改成52之类的)
int ed,f ;//ed:该位字母是否是一个字符串的结尾(是多少个字符串的结尾) f见下

} tr[1 << 20]; // f : 如果匹配到该位字母正好失配应该跳向哪个字符串的哪个位置继续匹配

Fa♂Q1 这里 to[26] 是0下标开始即 a,b......z 通向 to[0],to[1]......to[25]

Fa♂Q2 我感觉 char 比 string 慢一点？要用char还是可以的但别用1下标即scanf("%s",i + 1); 超慢应该是频繁计算+1导致的

Fa♂Q3(CSDN怎么这么会插广告) 本题是有相同字串的因此在下面代码最后一行是++ 这个要根据题目要求灵活变化

string i;
cin >> i;//读入要搜索的字符串
pos = 0;//以0为总结点 即第0位字母(不存在)
	for (int b = 0 ; b < i.size() ; b ++)//一位一位加入字符串里的字符 注意string类型0下标
 	{
 		int c = i[b] - 'a';//找到该位字符应接到哪里
 			if (!tr[pos].to[c]) tr[pos].to[c] = ++tot;//如果树里没有这个串 该字母加入到树末
 		pos = tr[pos].to[c];//以该字母在树中的位置继续寻找
	}
++tr[pos].ed;//此时读完一串了 此时pos是该字符串末尾在树中的位置 因此在此打标记 作为字符串的结尾

Tried树建好了然后自然是Tried图啦但是怎么建呢？

我之前貌似说过什么

"在每个tired树上的每个节点的所有分支(不论存不存在) 连上一条接向树上其他节点的边"

Right~这里我们引入队列que 我这里用pre代替(天知道我为什么要用pre这个奇怪的名字)

队列头和尾都设为0(为1也没问题随便改改即可) 队列长度嘛也要根据空间大小适当合理地调整减他一大半

队列开始空的我们如果直接查询还要在开始移动队首时判断程序太麻烦 NG

于是乎我们预处理一下第一层呐

for (int a = 0 ; a < 26 ; a ++)//此处是查询是否存在以a到z开头的字符串
	if (tr[0].to[a]) pre[++t] = tr[0].to[a];//如果有就把该字符所在字典的位置记录

这样队列里就有数了对不对

Tip:其实该句if后面应该加上 else tr[0].f = 0 的但是数组初始化已经被赋为0了理解概念时要记住

然后开始拓展查询对于存在的拓展的点需使他的失配节点匹配到他父亲的通向他那个字母的失配节点

因为此处队列的查询类似bfs 他父亲通向他的失配节点会比他的失配节点早搜寻到

关于这样为什么是最优的你想想你现在匹配了 a 个字符了然后下一个匹配不过去就跳回匹配了 a - 1 个字符的状态从那里的 26 个分支继续拓展如果都不行就再退回......这样就能充分利用公共前缀了

对于存在的拓展的点还需扩展队尾加入该节点 It's show time~ 代码就不注释了看上面几行

while (h != t)
{
	int p = pre[++h];
	for (int a = 0 ; a < 26 ; a ++)
		if (tr[p].to[a])
		{
			tr[tr[p].to[a]].f = tr[tr[p].f].to[a];
			pre[++t] = tr[p].to[a];
		}
		else tr[p].to[a] = tr[tr[p].f].to[a];
}

自此 Tried树建立完毕可以开始搜索啦~

根据题目要求搜索这个部分的灵活性很大本题要求就见放后面的题目链接吧(然而我差不多全部博客用的都是洛谷的模板)

Tip: pos 和 tot 此处初始化为 0

for (int a = 0 ; a < i.size() ; a ++)//此处i是总串
{//pos是指当前节点所代表的字符串加上i[a]的字符后存在的位置 如果不存在就是0啦------------| (这是箭头这是箭头这是箭头!!)
	pos = tr[pos].to[i[a] - 'a'];//因为怕下一行太长 此处把其中相同的部分用pos代替 V (这是箭头这是箭头这是箭头!!)
		for (int b = pos; b && tr[pos].ed ; b = tr[b].f)//此处如果 不存在 或者 继续匹配着突然不存在了 就直接跳出去 此时b = 0
		tot += tr[b].ed,tr[b].ed = 0;//(接上)否则当tr[pos].ed不为0时 就说明总串里存在某一字串 本题不重复计算便将该.ed设为0
}(接上)如果再次搜到这里 便跳出去 还有 本题有重复子串 因此tot是统加

好了接下来是巨水模板的传送门

以及贴总代码 (前面代码都是从这里截的因此不贴注释啦)

Update: 当两个要搜索的字符串是包含关系的时候这代码会出锅啊=-=找时间改一下

#include <iostream>
#include <cstring>
#include <cstdio>
using namespace std;
struct tree {
 	int to[26];
 	int ed,f;
}tr[1 << 20];
string i;
int pre[1 << 20];
int n,pos,tot = 0;
int main()
{
 	scanf("%d",&n);
 	for (int a = 1 ; a <= n ; a ++)
 	{
 		cin >> i;
 		pos = 0;
 			for (int b = 0 ; b < i.size() ; b ++)
 			{
 				int c = i[b] - 'a';
 				 if (!tr[pos].to[c])
					  tr[pos].to[c] = ++tot;
 				pos = tr[pos].to[c];
			}
		++tr[pos].ed;
	}
	int h = 0,t = 0;
	for (int a = 0 ; a < 26 ; a ++)
		if (tr[0].to[a])
			pre[++t] = tr[0].to[a];
	while (h != t)
	{
		int p = pre[++h];
			for (int a = 0 ; a < 26 ; a ++)
				if (tr[p].to[a])
				{
						tr[tr[p].to[a]].f = tr[tr[p].f].to[a];
						pre[++t] = tr[p].to[a];
				}
				else tr[p].to[a] = tr[tr[p].f].to[a];
	}
	cin >> i;
	pos = tot = 0; 
	for (int a = 0 ; a < i.size() ; a ++)
	{
		pos = tr[pos].to[i[a] - 'a'];
			for (int b = pos; b && tr[pos].ed ; b = tr[b].f)
			tot += tr[b].ed,tr[b].ed = 0;
	}
	printf("%d\n",tot);
	return 0;
}

其实也挺短的=-=但是精悍啊~

Frocean_拾月氷海

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
3
评论
AC自动机详解 + 模板

KMP 大多是用来解决单串单串匹配的问题的~AC自动机则是在 KMP 的基础上用来解决一大串里面的许多小串出现次数出现位置出现个数等问题的Tried树 + KMP + 融合贯通 = AC自动机首先AC自动机的建立需要一个Tried树然后转化成Tried图Tried图就是在每个tired树上的每个节点的所有分支(不论存不存在) 连上一条接向树上其他...
复制链接

扫一扫