【算法简介】
【用途】
在O(N)的时间内,建立一个自动机,能够表示字符串的所有子串
可以简单理解为把所有后缀优美地建到了Trie树上
【定义】
len[i]表示i点表示的字符串集合中最长串的长度
fa[i]表示parent树上的父亲 shortest(i)=longest(j)+1的两个集合满足fa[i]=j
siz[i]表示i号节点的endpos集大小(也就是i号节点在字符串中出现次数)
sum[i]表示后缀自动机经过i号节点的串的个数
A[i]表示len数组从大到小第i位的节点,用于更好的遍历parent树
【操作】
添加一个节点c,分为三种情况:
1.向上跳fa的点都没有c儿子,那就一直跳,过程中添加一下儿子c
for(;f && !ch[f][c];f=fa[f]) ch[f][c]=p;
if(!f) {fa[p]=1; return};
根据1不断向上跳,直到f点有一个c儿子停止了,这时,我们设x为f的c儿子,如果longest(f)+1==shortest(x)==longest(x)则为case2,否则是case3
2.x中只有一个字符串(只有这样才能导致longest==shortest),那么就认x点为fa即可
int x=ch[f][c];
if(len[f]+1==len[x]) {fa[p]=x; tot--; return;}
3.把x复制一次给y,并将前面连续的一段本应该连向x的都连向y,把x的儿子copy给y,把x和p的儿子都连向y,len[y]设置成len[f]+1
--from blog
int y=++tot;
len[y]=len[f]+1; fa[y]=fa[x]; fa[x]=fa[p]=y;
memcpy(ch[y],ch[x],sizeof(ch[x]));
for(;f && !ch[f][c]==x;f=fa[f]) ch[f][c]=y;
else
4.求A
已经知道了len数组,现在求len第i大的节点,用一下计数排序就可以O(N)解决了
for(int i=1;i<=tot;i++) c[len[i]]++;
for(int i=1;i<=tot;i++) c[i]+=c[i-1];
for(int i=1;i<=tot;i++) A[len[i]--]=i;
5.求siz
根据parent树上父亲节点的字符串集合是所有儿子的所有后缀,所以出现了儿子节点,就会有对应的父亲节点
siz就是从parent树上推出来的,因为儿子节点的len肯定大于父亲节点,所以按照A的顺序计算即可(用这种方法优化dfs计算)
for(int i=node;i>=1;i--) siz[fa[A[i]]]+=siz[A[i]];
6.求sum
先在每一个本质不同的子串的结尾打上1的标记,然后sum[i]表示的就是DAG上拓扑序在i之后的点的数量
for(int i=2;i<=tot;i++) sum[i]=1;
for(int i=tot;i>=1;i--)
for(int k=0;k<26;k++)
if(ch[A[i]][k]) sum[A[i]]+=sum[ch[A[i]][k]];
这样我们就得到了最终的构建后缀自动机的代码了
int t,k,last=1,tot=1,ch[maxn][26],fa[maxn],len[maxn];
void insert(int c)
{
int f=last,p=++tot; last=p;
for(;f && !ch[f][c];f=fa[f]) ch[f][c]=p;
if(!f) {fa[p]=1; return;}
int x=ch[f][c];
if(len[f]+1==len[x]){fa[p]=x; tot--; return;}
int y=++tot;
len[y]=len[f]+1; fa[y]=fa[x]; fa[x]=fa[p]=y;
memcpy(ch[y],ch[x],sizeof(ch[x]));
for(;f && ch[f][c]==x;f=fa[f]) ch[f][c]=y;
}