AC自动机 详解 + 模板

KMP 大多 是用来解决 单串单串匹配 的 问题的~

AC自动机 则是在 KMP 的 基础上 用来解决一大串里面的 许多小串出现次数 出现位置 出现个数 等 问题的

Tried树 + KMP + 融合贯通 = AC自动机

首先AC自动机的建立需要一个Tried树 然后转化成Tried图

Tried图 就是 在每个tired树上的 每个节点的 所有分支(不论存不存在) 连上 一条接向树上其他节点 的 边

接向的位置 要连到该前缀上一次匹配的点 找最优

Tried树 在这里打一下 注释见代码

我在这里 定义 Tried图 为 结构体——

 struct tree {        //大小之类的看情况吧 最多和全部被查询字符串长度总和一样 根据空间大小适当合理地调整减他一大半
  int to[26];        //该位字母 连向的下一位字母节点 (此处26是标号 'a' ~ 'z'的 需根据题目改成52之类的)
  int ed,f        ;//ed:该位字母 是否是 一个字符串的结尾(是多少个字符串的结尾) f见下

 } tr[1 << 20];        // f : 如果 匹配到该位字母 正好失配 应该跳向哪个字符串 的 哪个位置 继续匹配

Fa♂Q1 这里 to[26] 是0下标开始 即 a,b......z 通向 to[0],to[1]......to[25]

Fa♂Q2 我感觉 char 比 string 慢一点? 要用char还是可以的 但别用1下标 即scanf("%s",i + 1);  超慢 应该是频繁计算+1导致的

Fa♂Q3(CSDN怎么这么会插广告) 本题是有相同字串的 因此在下面代码最后一行是++ 这个要根据题目要求灵活变化

string i;
cin >> i;//读入要搜索的字符串
pos = 0;//以0为总结点 即第0位字母(不存在)
	for (int b = 0 ; b < i.size() ; b ++)//一位一位加入字符串里的字符 注意string类型0下标
 	{
 		int c = i[b] - 'a';//找到该位字符应接到哪里
 			if (!tr[pos].to[c]) tr[pos].to[c] = ++tot;//如果树里没有这个串 该字母加入到树末
 		pos = tr[pos].to[c];//以该字母在树中的位置继续寻找
	}
++tr[pos].ed;//此时读完一串了 此时pos是该字符串末尾在树中的位置 因此在此打标记 作为字符串的结尾

 

Tried树建好了 然后自然是Tried图啦 但是怎么建呢?

 

我之前貌似说过什么

"在每个tired树上的 每个节点的 所有分支(不论存不存在) 连上 一条接向树上其他节点 的 边"

Right~这里我们引入队列que 我这里用pre代替(天知道我为什么要用pre这个奇怪的名字)

队列头和尾都设为0(为1也没问题 随便改改即可) 队列长度嘛 也要根据空间大小适当合理地调整减他一大半

队列开始空的 我们如果直接查询 还要在开始移动队首时判断 程序太麻烦 NG

于是乎 我们预处理一下第一层 呐

for (int a = 0 ; a < 26 ; a ++)//此处是查询是否存在以a到z开头的字符串
	if (tr[0].to[a]) pre[++t] = tr[0].to[a];//如果有就把该字符所在字典的位置记录

这样 队列里就有数了对不对

Tip:其实该句if后面应该加上 else tr[0].f = 0 的 但是数组初始化已经被赋为0了 理解概念时要记住

然后开始拓展查询 对于存在的拓展的点 需使他的失配节点 匹配到他父亲的 通向他那个字母的 失配节点

因为此处队列的查询类似bfs 他父亲通向他 的失配节点 会比他 的失配节点 早搜寻到

关于这样为什么是最优的 你想想你现在匹配了 a 个字符了 然后下一个匹配不过去 就跳回匹配了 a - 1 个字符的状态 从那里的 26 个分支继续拓展 如果都不行就再退回......这样就能充分利用公共前缀了

对于存在的拓展的点 还需扩展队尾 加入该节点 It's show time~ 代码就不注释了看上面几行

while (h != t)
{
	int p = pre[++h];
	for (int a = 0 ; a < 26 ; a ++)
		if (tr[p].to[a])
		{
			tr[tr[p].to[a]].f = tr[tr[p].f].to[a];
			pre[++t] = tr[p].to[a];
		}
		else tr[p].to[a] = tr[tr[p].f].to[a];
}

自此 Tried树建立完毕 可以开始搜索啦~

根据题目要求 搜索这个部分的灵活性很大 本题要求就见放后面的题目链接吧(然而我差不多全部博客用的都是洛谷的模板)

Tip: pos 和 tot 此处初始化为 0

for (int a = 0 ; a < i.size() ; a ++)//此处i是总串
{//pos是指当前节点所代表的字符串加上i[a]的字符后存在的位置 如果不存在就是0啦------------| (这是箭头这是箭头这是箭头!!)
	pos = tr[pos].to[i[a] - 'a'];//因为怕下一行太长 此处把其中相同的部分用pos代替 V (这是箭头这是箭头这是箭头!!)
		for (int b = pos; b && tr[pos].ed ; b = tr[b].f)//此处如果 不存在 或者 继续匹配着突然不存在了 就直接跳出去 此时b = 0
		tot += tr[b].ed,tr[b].ed = 0;//(接上)否则当tr[pos].ed不为0时 就说明总串里存在某一字串 本题不重复计算便将该.ed设为0
}(接上)如果再次搜到这里 便跳出去 还有 本题有重复子串 因此tot是统加

 

好了 接下来是巨水模板的传送门

以及贴总代码 (前面代码都是从这里截的 因此不贴注释啦)

Update: 当两个要搜索的字符串是包含关系的时候这代码会出锅啊=-=找时间改一下

#include <iostream>
#include <cstring>
#include <cstdio>
using namespace std;
struct tree {
 	int to[26];
 	int ed,f;
}tr[1 << 20];
string i;
int pre[1 << 20];
int n,pos,tot = 0;
int main()
{
 	scanf("%d",&n);
 	for (int a = 1 ; a <= n ; a ++)
 	{
 		cin >> i;
 		pos = 0;
 			for (int b = 0 ; b < i.size() ; b ++)
 			{
 				int c = i[b] - 'a';
 				 if (!tr[pos].to[c])
					  tr[pos].to[c] = ++tot;
 				pos = tr[pos].to[c];
			}
		++tr[pos].ed;
	}
	int h = 0,t = 0;
	for (int a = 0 ; a < 26 ; a ++)
		if (tr[0].to[a])
			pre[++t] = tr[0].to[a];
	while (h != t)
	{
		int p = pre[++h];
			for (int a = 0 ; a < 26 ; a ++)
				if (tr[p].to[a])
				{
						tr[tr[p].to[a]].f = tr[tr[p].f].to[a];
						pre[++t] = tr[p].to[a];
				}
				else tr[p].to[a] = tr[tr[p].f].to[a];
	}
	cin >> i;
	pos = tot = 0; 
	for (int a = 0 ; a < i.size() ; a ++)
	{
		pos = tr[pos].to[i[a] - 'a'];
			for (int b = pos; b && tr[pos].ed ; b = tr[b].f)
			tot += tr[b].ed,tr[b].ed = 0;
	}
	printf("%d\n",tot);
	return 0;
}

其实也挺短的=-=但是精悍啊~

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值