AC自动机
AC自动机,刚学习ac自动机时,还真的以为能自动ac,ac自动机就是一种匹配多个字符串的高效的方法,如果要靠kmp来解决问题,那就要考k个n+m,这个太浪费时间,写写暴力还行,不能拿全分,但是想一想,他浪费时间浪费在每个字符串都要单个的求next数组,单个的与文章匹配,我们想一想,如果我们把这些单个化为一个整体,那就节省时间了,把字符串结合在一起的方法有很多,比如什么hash,trie树,而ac自动机就是建立在trie树上面的,而原来KMP的next数组变成了树的fail指针,流程其实挺简单的,由于细节在trie树和kmp已分析过,所以大概分析一下,建树还是一如既往。要加一个set_fail函数来查找每个节点的fail,这个过程要说一下,就是fail一直跳,知道不为空的节点或根,在把fail指向节点或根,这样做原因是什么?想想并查集,它的一个优化就是直接接一根线到祖先(路径压缩),可能有异曲同工之妙啊,接了fail的先以后就要做做后一步了,把文章放到自动机上跑一边,就是和trie找前缀过程有点像,总之,ac自动机作用相当打,在kmp上更上一层楼。下面配上代码。
#include<stdio.h>
#include<string.h>
#include<malloc.h>
#include<queue>
using namespace std;
char str[1000000+100];
struct node{
int count;
struct node *next[26];
struct node *fail;
void init(){
for(int i = 0; i < 26; i++) next[i] = NULL;
count = 0;
fail = NULL;
}
} *root;
void insert(){
int len, k;
node *p = root;
len = strlen(str);
for(k = 0; k < len; k++){
int pos = str[k] - 'a';
if( p->next[pos] == NULL ){
p->next[pos] = new node;
p->next[pos]->init();
p = p->next[pos];
}
else
p = p->next[pos];
}
p->count++;
}
void getfail()
{
int i;
node *p = root, *son, *temp;
queue <struct node *> que;
que.push(p);
while( !que.empty() ){
temp = que.front();
que.pop();
for(i = 0; i < 26; i++){
son = temp->next[i];
if(son != NULL){
if(temp == root) {son->fail = root;}
else{
p = temp->fail;
while( p ) {
if(p->next[i]){
son->fail=p->next[i];
break;
}
p=p->fail;
}
if(!p) son->fail=root;
}
que.push(son);
}
}
}
}
void query()
{
int len, i, cnt = 0;
len = strlen(str);
node *p, *temp;
p = root;
for( i = 0; i < len; i++)
{
int pos = str[i]-'a';
while( !p->next[pos]&&p!=root ) p = p->fail;
p = p->next[pos];
if( !p ) p=root;
temp = p;
while( temp!=root )
{
if(temp->count >= 0)
{
cnt += temp->count;
temp->count = -1;
}
else break;
temp = temp->fail;
}
}
printf("%d\n",cnt);
}
int main()
{
int cas,n;
scanf("%d",&cas);
while(cas--)
{
root=new node;
root->init();
root->fail=NULL;
scanf("%d",&n);
int i;
getchar();
for(i=0;i<n;i++)
{
gets(str);
insert();
}
getfail();
gets(str);
query();
}
return 0;
}