【学习笔记】SAM的结构和应用

仰望星空的蚂蚁

已于 2023-10-27 21:29:13 修改

阅读量1.1k

点赞数 2

分类专栏：字符串文章标签：学习笔记算法

于 2023-06-24 19:48:22 首次发布

本文链接：https://blog.csdn.net/cqbzlydd/article/details/131362330

版权

字符串专栏收录该内容

5 篇文章 0 订阅

订阅专栏

Oi-wiki

让我们从头说起。字符串 $s$ 的 $S A M$ 是一个接受 $s$ 的所有后缀的最小 $D F A$ 。既然是 $D F A$ 那么就存在一个或多个终止状态，如果我们从初始状态 $t_0$ 出发，最终转移到了一个终止状态，则路径上的所有转移连接起来一定是字符串 $s$ 的一个后缀。反过来， $s$ 的每个后缀均可用一条从 $t_0$ 到某个终止状态的路径构成。

$S A M$ 包含关于字符串 $s$ 的所有子串信息。任意从初始状态 $t_0$ 开始的路径，如果我们将转移路径上的标号写下来，都会形成 $s$ 的一个子串。反之每个 $s$ 的子串对应从 $t_0$ 开始的某条路径。唯一需要注意的是若干个子串可能对应同一条路径，因为是去重过后的。

考虑字符串 $s$ 的任意非空子串 $t$ ，记 $\text{endpos(t)}$ 为在字符串 $s$ 中 $t$ 的所有结束位置。这样所有字符串 $s$ 的非空子串都可以根据它们的 $\text{endpos}$ 集合被分为若干个 等价类 。

引理1：字符串 $s$ 的两个非空子串 $u$ 和 $w$ （假设 $|u|\le |w|$ ）的 $\text{endpos}$ 相同，当且今当字符串 $u$ 在 $s$ 中的每次出现，都是以 $w$ 的后缀形式存在的。

引理2：考虑两个非空子串 $u$ 和 $w$ （假设 $|u|\le |w|$ ），那么如果 $u$ 是 $w$ 的一个后缀，则 $\text{endpos}(w)\subseteq \text{endpos}(u)$ ；否则 $\text{endpos}(w)\cap \text{endpos}(u)=\empty$ 。

引理3：考虑一个 $\text{endpos}$ 等价类，将类中的所有子串按长度非递增的顺序排序。那么对于同一等价类的任意两子串，较短者为较长者的后缀，且该等价类中的子串长度 恰好覆盖整个区间 $[x, y]$ 。

这些东西就不用证了吧。。。

考虑 $S A M$ 中某个不是 $t_0$ 的状态 $v$ 。我们已经知道，状态 $v$ 对应具有相同 $\text{endpos}$ 的等价类。我们如果定义 $w$ 为这些字符串中最长的一个，则所有其他的字符串都是 $w$ 的后缀。定义一个后缀连接 $\text{link(v)}$ 连接道对应于 $w$ 的最长后缀的另一个 $\text{endpos}$ 的等价类状态。

为了方便，规定 $\text{endpos}(t_0)=\{-1,0,..,|S|-1\}$ 。

引理4：所有后缀链接构成一颗根节点为 $t_0$ 的树。唯一需要注意的是这颗树上的节点也对应这个 $D A G$ 上的点。证明也非常简单，考虑每次会连接到长度更短的后缀，最后总能到达空串对应的初始状态 $t_0$ 。

引理5：通过 $\text{endpos}$ 集合构造的树（每个子结点的 $s u b se t$ 都包含在父节点的 $s u b se t$ 中）与通过后缀连接 $\text{link}$ 构造的树相同。换句话说，后缀连接构成的树本质上是 $\text{endpos}$ 集合构成的一棵树。事实上仔细观察一下还会发现一个节点的 $\text{endpos}$ 就是所有子结点的 $\text{endpos}$ 集合的并。关于任意节点的 $\text{endpos}$ 集合怎么求我们后面会提到。

然后介绍一下 $S A M$ 的构造过程。

考虑给当前字符串添加一个字符 $c$ 的过程。

令 $l a s t$ 为添加字符 $c$ 之前，整个字符串对应的状态。
创建一个新的状态 $c u r$ ，并将 $\text{len}(cur)$ 赋值为 $\text{len}(last)+1$ ，此时 $\text{link}(cur)$ 还未知。
从状态 $l a s t$ 开始，如果还没有到字符 $c$ 的转移，那么就添加一个道状态 $c u r$ 的转移，遍历后缀链接。如果在某个点已经存在到字符 $c$ 的转移，我们就停下来，并将这个状态标记为 $p$ 。
如果没有找到这样的状态 $p$ ，我们就到达了虚拟状态 $- 1$ ，将 $\text{link}(cur)$ 赋值为 $0$ 并退出。
假设现在我们找到了一个状态 $p$ ，其可以通过字符 $c$ 转移。将转移到的状态标记为 $q$ 。事实上此时我们已经知道 $c u r$ 的后缀链接的长度应该为 $\text{len}(p)+1$ 了。所以我们只需要进行一些修正即可。
如果 $\text{len}(p)+1=\text{len}(q)$ ，那么只要将 $\text{link}(cur)$ 赋值为 $q$ 并退出。
否则创建一个新的状态 $c l o n e$ ，复制 $q$ 的除 $l e n$ 外的所有信息（后缀链接和转移）。将 $\text{len}(clone)$ 赋值为 $\text{len}(p)+1$ 。注意这个时候应该是 $c l o n e$ 为 $q$ 和 $c u r$ 的后缀，所以将后缀链接从 $c u r$ 指向 $c l o n e$ ，也从 $q$ 指向 $c l o n e$ 。最后还要完成一个重定向的过程。使用后缀链接从状态 $p$ 往回走，只要存在一条通过 $p$ 到达 $q$ 的转移，就将该转移重定向到状态 $c l o n e$ 。这也很好理解，因为 $c l o n e$ 和 $q$ 的区别就在于 $c l o n e$ 的 $\text{endpos}$ 集合里面多了一个位置，因为是从 $p$ 往回走所以转移到的状态长度肯定不会超过 $c l o n e$ ，所以应该和 $c l o n e$ 放在同一个等价类当中。
最后将 $l a s t$ 的值更新为状态 $c u r$ 。

有一点复杂，但是如果多画图还是可以理解的。

事实上 $S A M$ 的节点个数不超过 $2 n - 1$ ，转移数不超过 $3 n - 4$ 。有构造能卡到上界，这里就不赘述了。我更喜欢将转移数看 $D A G$ 中的边数，这似乎在提示我们可以直接在 $D A G$ 上做文章。

简单讲几个比较基础的应用吧。

检查字符串是否出现：直接根据模式串 $P$ 的字符进行转移即可。但是我要提的是，这个算法还可以找到 $P$ 在文本串中出现的最大前缀长度。

不同子串个数：转化成不同路径条数，直接在 $D A G$ 上统计即可。当然直接对每个节点对应的子串数目求和也是可以的。

字典序第 $K$ 大串：利用路径和子串的对应关系不难贪心求出答案。但是我要提的是，如果相同的子串算出现多次，那么我们可以通过递推求出每个节点对应的 $\text{endpos}$ 集合的大小，相当于给每个子串赋了一个权值，可以类似计算。

最小循环移位：发现 $S + S$ 包含字符串 $S$ 的所有循环移位作为子串，那么问题等价于找一条长度为 $n$ 的字典序最小的路径，这显然可以贪心解决。

所有出现位置：说白了就是要找到所有节点对应的 $\text{endpos}$ 。可以这样来想，如果一个子串的 $\text{endpos}$ 集合中包含 $i$ ，那么说明这个子串是以 $i$ 结尾的前缀的后缀，换句话说在后缀树上是 $i$ 对应的终止节点的祖先，那么就在 $i$ 对应的终止节点上插入 $i$ ，然后线段树合并即可。显然这里也可以用上可持久化数据结构做到在线。