2018-4-2重新编辑
作为一个蒟蒻的我,终于学习了AC自动机。
其实之前我以为AC自动机是自动AC的呢!(手动滑稽)
其实AC自动机啊,是字符串匹配中的多匹配问题的基础2333
举个栗子
母串
hychycxyxy
三个匹配串
hyc
chy
cxyy
有两个是母串的子串2333
如果匹配串只有一个的话,那就用KMP喽,可是这个是很多个匹配串咋办呢
那就得请出炒鸡厉害的AC自动机啦
AC自动机是从字典树的基础上得来的,先用匹配串建一个字典树,然后用失败指针将节点连起来,把字典树变成了一张图。(听起来很简单是吧)
其中的关键就是失败指针的建立啦。
失败指针的建立方法是找节点的父节点的失败指针指向的节点,看这个节点的子节点有没有跟该节点一样的,如果有,就将这个节点的失败指针连向这个子节点,如果没有呢,那就连向父节点的失败节点,听起来很绕吧。现在画张图来看一下啊
首先啊,根节点的子节点的失败指针全部都指向根节点,也就是黑色的虚线啦,然后,如果y失败了,它的父节点h失败指针指向的节点也就是根节点啦,根节点的子节点没有y,也就是上面所说的第二种情况,所以y的失败指针指向根节点。
如果c失败了,它的父节点y的失败指针指向的节点也就是根节点,根节点的子节点有c这个节点,所以讲c节点的失败指针连向根节点的c。
可以看出,子节点的失败指针的建立必然需要父节点的失败指针建立,所以建立失败指针的方式就是使用BFS的方式拓展出来的。
当我们进行字符串匹配时,刚某个节点无法匹配时呢,跳向它的失败指针,再进行匹配,这样之前匹配成功的就不用再枚举了,大大降低了时间复杂度,其实很像KMP中的next数组233(如果不知道KMP是啥的请自行百度233)。
例题 1:Luogu 3808
本题要求我们求出文本串在母串里出现的数量
#include <cstdio>
#include <iostream>
#include <string>
#include <queue>
#include <algorithm>
int n;
std::string s1;
const int maxm=1000000;
namespace AC_automaton{
struct node
{
int fail,end;
int ch[26];
}st[maxm];
int sz;
std::queue <int> dl;
inline void build(std::string s)
{
int len=s.length();
int now=0;
for(int i=0;i<len;i++)
{
if(!st[now].ch[s[i]-'a'])
st[now].ch[s[i]-'a']=++sz;
now=st[now].ch[s[i]-'a'];
}
st[now].end+=1;
}
inline void make_fail()
{
for(int i=0;i<26;i++)
if(st[0].ch[i]) st[st[0].ch[i]].fail=0,dl.push(st[0].ch[i]);
while(!dl.empty())
{
int now=dl.front();
dl.pop();
for(int i=0;i<26;i++)
{
if(st[now].ch[i])
{
st[st[now].ch[i]].fail=st[st[now].fail].ch[i];
dl.push(st[now].ch[i]);
}
else
st[now].ch[i]=st[st[now].fail].ch[i];
}
}
}
inline int match(std::string s)
{
int len=s.length();
int now=0,ans=0;
for(int i=0;i<len;i++)
{
now=st[now].ch[s[i]-'a'];
for(int t=now;t&&~st[t].end;t=st[t].fail)
{
ans+=st[t].end;
st[t].end=-1;
}
}
return ans;
}
}
int main()
{
//freopen("233.in","r",stdin);
scanf("%d",&n);
for(int i=1;i<=n;i++)
{
std::cin>>s1;
AC_automaton::build(s1);
}
AC_automaton::st[0].fail=0;
AC_automaton::make_fail();
std::cin>>s1;
printf("%d",AC_automaton::match(s1));
return 0;
}
例题 2:Luogu 3796
本题要求我们求解出现在母串里次数最多的文本串,改变一下查询方式以及维护的东西即可
#include <cstring>
#include <iostream>
#include <string>
#include <algorithm>
#include <cstdio>
#include <queue>
const int maxm=110000;
int n;
int num[maxm];
std::string s1[maxm];
std::string ms;
namespace AC_automaton{
struct node{
int end,fail;
int ch[26];
}st[maxm];
int sz;
std::queue <int> dl;
inline void clear(int x)
{
st[x].end=st[x].fail=0;
memset(st[x].ch,0,sizeof(st[x].ch));
}
inline void build(std::string s,int id)
{
int len=s.length();
int now=0;
for(int i=0;i<len;i++)
{
if(!st[now].ch[s[i]-'a']) st[now].ch[s[i]-'a']=++sz,clear(sz);
now=st[now].ch[s[i]-'a'];
}
st[now].end=id;
}
inline void make_fail()
{
for(int i=0;i<26;i++)
if(st[0].ch[i]) st[st[0].ch[i]].fail=0,dl.push(st[0].ch[i]);
while(!dl.empty())
{
int now=dl.front();
dl.pop();
for(int i=0;i<26;i++)
{
if(st[now].ch[i])
{
st[st[now].ch[i]].fail=st[st[now].fail].ch[i];
dl.push(st[now].ch[i]);
}
else
st[now].ch[i]=st[st[now].fail].ch[i];
}
}
}
inline void match(std::string s)
{
int len=s.length();
int now=0;
for(int i=0;i<len;i++)
{
now=st[now].ch[s[i]-'a'];
for(int t=now;t;t=st[t].fail)
num[st[t].end]++;
}
}
}
void work()
{
int ans=0;
memset(num,0,sizeof(num));
AC_automaton::clear(0);
AC_automaton::sz=0;
for(int i=1;i<=n;i++)
{
std::cin>>s1[i];
AC_automaton::build(s1[i],i);
}
AC_automaton::st[0].fail=0;
AC_automaton::make_fail();
std::cin>>ms;
AC_automaton::match(ms);
for(int i=1;i<=n;i++)
ans=std::max(ans,num[i]);
printf("%d\n",ans);
for(int i=1;i<=n;i++)
if(ans==num[i]) std::cout<<s1[i]<<"\n";
}
int main()
{
while((scanf("%d",&n))&&n)
work();
return 0;
}