不敢去做一件事就会一直觉得它很难。。
以前一直觉得AC自动机应该超难写,学了以后发现实在太好写了。。
AC自动机的fail指针与KMP算法的next数组是极为相似的,都是通过这些来减少冗余的扫描,所以我也把AC自动机的fail指针名字直接开成next了。。
AC自动机与KMP的不同在于KMP是单模式串匹配,AC自动机是多模式串匹配,所以AC自动机可以理解为就是在trie树上加上一些next指针,实际上是一个状态转移图,所以也有人把它叫做trie图。。
在建AC自动机之前要先建trie树,为了方便我们设置一个虚拟的0节点,向root连26条对应每个字母的边,root的next指针就是0。建好trie树之后要构造next指针,用BFS来构造。设i为j的父亲,当从i搜到j时,i的next指针已经找出,找到i的next指针k,那么root走到k的串就是i串的一个后缀,如果k有一条与i连向j相同的边连向它的儿子l,那么l串就是j串的一个后缀,将j串的next指针指向l即可,否则不断寻找k的next指针,最终一定可以找到这样一个k(0节点),这样就可以构造出来了。。要标记一个节点是否是危险节点,也就是root走到这个点的串是否包含一个模式串。。关于一个点i的next是危险节点是否要把i标记为危险节点的问题我觉得要因题而异。。
匹配的时候用类似构造next指针的方法将一个个字符添加进来,就是不断回溯next指针然后看是否有这个字母的边。。
AC自动机的思想和KMP大体上是一样的(我觉得…),非常巧妙。。
HDU 2222(卡了空间我的好像过不了):
#include<iostream>
#include<cstdio>
#include<memory.h>
#define N 500005
#define M 1000005
using namespace std;
int i,j,T,n,nd,a[N][27],Next[N],End[N],que[N];
char s[M];
void ins(char *s)
{
int i,now=1,len=strlen(s);
for (i=0;i<len;i++) if (a[now][s[i]-'a']) now=a[now][s[i]-'a']; else now=a[now][s[i]-'a']=++nd;
End[now]++;
}
void build()
{
int head=1,tail=1,get,i,t;
que[1]=1;
while (head<=tail)
{
get=que[head++];
for (i=0;i<26;i++)
if (a[get][i])
{
t=Next[get];
while (!a[t][i]) t=Next[t];
Next[a[get][i]]=a[t][i];
que[++tail]=a[get][i];
}
}
}
int run(char *s)
{
int i,now=1,t,ans=0,len=strlen(s);
for (i=0;i<len;i++)
{
while (!a[now][s[i]-'a']) now=Next[now];
now=a[now][s[i]-'a'];
t=now;
while (t)
{
ans+=End[t];
End[t]=0;
t=Next[t];
}
}
return ans;
}
int main()
{
scanf("%d",&T);
while (T--)
{
memset(a,0,sizeof(a));
memset(End,0,sizeof(End));
for (i=0;i<26;i++) a[0][i]=1;
Next[1]=0;nd=1;
scanf("%d\n",&n);
for (i=1;i<=n;i++) scanf("%s",s),ins(s);
build();
scanf("%s",s);
printf("%d\n",run(s));
}
}