SAM 后缀自动机——学习笔记

最新推荐文章于 2024-06-25 18:35:53 发布

Lynstery

最新推荐文章于 2024-06-25 18:35:53 发布

阅读量649

点赞数

分类专栏： ------------字符串相关------------- 后缀自动机

本文链接：https://blog.csdn.net/CHHNZ/article/details/76060598

版权

20 篇文章 0 订阅

订阅专栏

后缀自动机

4 篇文章 0 订阅

订阅专栏

什么是后缀自动机(SAM)？

大概可以理解成对暴力在字母树中插入n个后缀的一种优化。
首先它是一个自动机。
对于一个字符串 $s$ , $SAM$ 能识别其所有的后缀。还有一系列扩展运用。

一些分析和证明

用 $ST(st)$ 表示在自动机中从初始状态沿着字符串st走到达的状态。
字符串 $ST(a)$ 能识别 $x$ , 当且仅当 $ax$ 是 $S$ 的后缀。
所以一个状态 $ST(a)$ 能识别哪些后缀，只取决于 $Right(a)$ 。
定义 $Right(a)$ 表示 $a$ 出现在 $S$ 所以位置的右端点集合。
具体来说: 设 $a$ 在 $S$ 中出现的位置为 $[l_1,r_1),[l_2,r_2),…,[l_n,r_n)$ , $ST(a)$ 就能够识别 $Suffix(r_1),Suffix(r_2),…,Suffix(r_n)$ 。
我们把 { $r_1-1,r_2-1,…,r_n-1$ } 记为 $Right(a)$ 。
字符串 $x$ 能被识别，当且仅当 $x$ 是母串 $S$ 的后缀。
对于 $Right(a)$ ，适合他的子串的长度在一个范围内(子串太长 $Right$ 集合边小，太短 $Right$ 集合变大), 记作 $[min(a),max(a)]$ .

下面有一个结论：
对于任意两个不同状态 $ST(s1), ST(s2)\quad ,len(s1)<len(s2)$ 都满足： $Right(ST(s1))$ 和 $Right(ST(s2))$ 要么没有交集，要么 $Right(ST(s1)) \supset Right(ST(s2))$ 。
证明很简单，若 $s1$ 是 $s2$ 的后缀，所有可能的 $r$ 是一样的，但由于 $s2$ 长，会砍掉多一些，所以一定 $Right(ST(s1)) \supset Right(ST(s2))$ 。
若 $s1$ 不是 $s2$ 的后缀，可能的 $r$ 完全不同，所以一定不交。

有了上面的结论我们可以画出一个 $Parent$ 树，反映 $Right$ 集合的包含关系。
$Parent$ 树从上往下 $Right$ 集合变小，子串长度变长。
$fa=Parent(a) \Rightarrow Right(a) \subset Right(fa)$ 且 $Right(fa)$ 最小。
发现 $Max(fa)=Min(a)−1$ 。因为对于 $a$ ,字符串不断短，刚刚小于 $Min(a)$ 的时候， $Right$ 集合就变成 $Right(fa)$ 了。
$Parent$ 树的叶子结点是 $O(n)$ 的，且每个非叶子节点至少有两个儿子(这里感觉不太对劲，比如 $aaaaa$ ,但是一时找不到好的解释，所以这里先假装他是对的好了，大神求教)，所以自动机的点数是 $O(n)$ 的。

我们还需要证明边数的规模是线性的：
显然 $SAM$ 不是一棵树，所以我们建出 $SAM$ 的生成树。
对于每个后缀，沿着自动机走，将其对应上遇到的第一个非树边。
每个非树边至少被一个后缀所对应(假装它是对的)，所以边数也是 $O(n)$ 的。

构造

$SAM$ 的构造是在线的过程。
假设我们现在已经构造出了串 $T$ 的 $SAM$ ,现在要得到 $Tx$ 的 $SAM$ :

现在我们新建了一个节点 $pn=ST(Tx)$ .
我们先找到所有状态中 $Right$ 集合包含 $len(T)$ 的节点 $v_1,v_2,v_3...$ (只有这些节点可能向 $pn$ 连边)。
$ST(T)$ 显然在其中，剩下的就是 $ST(T)$ 在 $Parent$ 树中的所有祖先。
不妨让他们从后代到祖先排为： $v_1=ST(T), v_2,v_3,...,v_k=root$ .

对于出发没有标号为 $x$ 的边的点 $v_i$ ，说明需要直接连一条 $v_i$ 到 $pn$ 的标号为 $x$ 的边。
如果从 $v_i$ 出发有标号为 $x$ 的边，那么从 $v_{i+1}$ 出发之前肯定也有。(有标号为 $x$ 的边 $\Leftrightarrow$ $Right$ 集合中存在 $T[r+1]=x$ )

令 $v_p$ 表示 $v_1,...,v_k$ 中第一个出发有标号为 $x$ 的边的点。
考虑 $Right(v_p)= \{ r_1,r_2,...r_n \}$ ,设 $q=trans(v_p,x)$
有 $Right(trans(v_p,x))=\{ r_i+1|r_i \in Right(v_p)\ 且\ T[r_i+1]=x \}$ .(这是更新之前的情况)
注意到我们直接在 $q$ 的 $Right$ 中插入 $len(T)+1$ 可能会炸掉：最后一个串 $[l,len(T)+1]$ 不一定对,可能导致 $max(q)$ 变小，所以就多了一个状态了。
我们建一个新状态为 $nq$ , $Right(nq)=Right(q) \cup \{ len(T)+1 \}$

栗子:( $clj$ 巨神的 $ppt$ 上的)
A AAAAA xAAAAAAAAA AAAAA xAAAAAAAAB AAAAA x // $v_p$
这时候其实就有两种状态了：
AAAAAAx AAAAAAAA AAAAAAx AAAAAAAABAAAAAx // $q$
A AAAAAx AAAAAAAAA AAAAAx AAAAAAAAB AAAAAx // $nq$
实际上就是由于最后一个位置的限制，多出了一个 $Right$ 变化的点。

当然如果 $max(q)=max(v_p)+1$ ,即最后一个位置没有爆掉(把上面的 $B$ 改成 $A$ ), 就没有必要新建状态。
直接让 $Parent(np)=q$ 即可结束这一阶段。

若需要新建节点 $nq$ , 可以发现, $Parent(nq)=(原)Parent(q)\quad Parent(q)=nq,\quad Parent(np)=nq$ .
由于 $nq$ 之后的转移和 $\{len(T)+1 \}$ 无关(没有下一位)，所以 $nq$ 之后的所有转移和 $q$ 一样。
就相当于用 $nq$ 代替 $q$ ,在 $Parent$ 树中,把 $q$ 踢下去一位，使 $Parent(q)=nq$ 。
还没有更新完，我们还要把在 $v_p,...,v_k$ 中原本 $trans(v_i,x)=q$ 的改为 $trans(v_i,x)=nq$ , 因为我们已经用 $nq$ 代替 $q$ 了， $Parent$ 树中 $nq$ 在 $q$ 上层。
哪些节点满足 $trans(v_i,x)=q$ 呢？
由于 $v_p,...,v_k$ 都存在标号 $x$ 的边，且 $Right$ 集合不断增大，所以满足 $trans(v_i,x)=q$ 的一定是只有一段: $v_p,...v_e$ 。把这些改一改即可。
貌似完了…

代码实现

我们先整理一下思路:
对于每一阶段(已经有 $T$ 的 $SAM$ ,求 $Tx$ 的 $SAM$ ) ：
令 $p=ST(T)$ ，新建 $np=ST(Tx)$ .
$p$ 在 $Parent$ 树上的所有祖先: $v_1=ST(T), v_2,v_3,...,v_k=root$ .
若之前 $trans(v_i,x)=null$ , 则更新为指向 $np$ .
找到第一个原本 $trans(v_p,x)=x$ 的 $v_p$ , 若找不到就结束该阶段。
否则，令 $q=trans(v_p,x)$ .
若 $max(q)=max(v_p)+1$ ，则更新 $Parent(np)=q$ ，结束该状态。
否则，新建节点 $nq$ ,
复制之后的转移: $trans(nq,*)=trans(q,*)$ .
更新: $Parent(nq)=Parent(q),Parent(q)=nq,Parent(np)=nq$
对于所有 $v_i$ 若 $trans(v_i,x)=q$ ，则更新 $trans(v_i,x)=nq$
这一阶段结束。

写起来还是挺简单啊？

#include<cstdio>
#include<cstring>
#include<algorithm>
using namespace std;
struct node{
    node *par,*ch[26];
    int _max;
    node(int t1=0){ par=0; _max=t1; memset(ch,0,sizeof(ch)); }
} *root, *last;
typedef node* P_node;
void Extend(char x){
    P_node p=last, np=new node(p->_max+1);
    while(p&&p->ch[x]==0) p->ch[x]=np, p=p->par;
    if(!p) np->par=root; else{
        P_node q=p->ch[x]; 
        if(q->_max==p->_max+1) np->par=q; else{
            P_node nq=new node(p->_max+1);
            for(int i=0;i<=25;i++) nq->ch[i]=q->ch[i];
            nq->par=q->par; q->par=nq; np->par=nq;
            while(p&&p->ch[x]==q) p->ch[x]=nq, p=p->par;
        }
    }
    last=np;
}
char st[1000005];
int main(){
    freopen("sam.in","r",stdin);
    freopen("sam.out","w",stdout);
    root=last=new node(0);
    scanf("%s",st+1); 
    int len=strlen(st+1);
    for(int i=1;i<=len;i++) Extend(st[i]);
    return 0;
}