后缀自动机_我们要检查字符串 p 是否作为 t 的一个子串出现。-CSDN博客

本文链接：https://blog.csdn.net/boyxiejunboy/article/details/61205666

应用

简便起见，我们假设字母表的大小k为常数。

存在性查询

问题.给定文本T，询问格式如下：给定字符串P，问P是否是T的子串。
分析：直接沿着go[][]对应着跳

复杂度要求.预处理O(length(T))，每次询问O(P)。

算法.我们对文本T用O(length(T))建立后缀自动机。

现在回答单次询问。假设状态——变量v，最初是初始状态T_0.我们沿字符串P给出的路径走，因此从当前状态经转移来到新的状态v。如果在某时刻，当前状态没有要求字符的转移，那么答案就是”no”。如果我们处理了整个字符串P，答案就是”yes”。

显然这一算法将在时间O(length(P))内运行完毕。并且，该算法实际上找出了P在文本中出现过的最长前缀——如果模式串使得这些前缀都很短，算法将比处理全部模式串要快得多。

不同的子串个数

问题.给定字符串S，问它有多少不同的子串。

复杂度要求.O(length(S))。

算法.我们将字符串S建立后缀自动机。

在后缀自动机中，S的任意子串都对应自动机中的一条路径。答案就是从初始节点t_0开始，自动机中不同的路径条数。

已知后缀自动机是一张有向无环图，我们可以考虑用动态规划计算不同的路径数量。

也就是，令d[v]为从状态v开始的不同路径条数（包括长度为零的路径），则有转移：

即d[v]是v所有后继节点的d值之和加上1.

最终答案就是d[t_0]-1（减一以忽略空串）。

不同子串的总长

问题.给定字符串S，求其所有不同子串的总长度。

复杂度要求.O(length(S)).

算法.这一问题的答案和上一题类似，但现在我们必须考虑两个状态：不同子串的个数d[v]和它们的总长ans[v].

上一题已描述了d[v]的计算方法，而ans[v]的计算方法如下：

即取所有后继节点w的ans值，并将它和d[w]相加。因为这是每个字符串的首字母。

字典序第k小子串

问题.给定字符串S，一系列询问——给出整数K_i，计算S的所有子串排序后的第K_i个。

复杂度要求.单次询问O(length(ans)*Alphabet)，其中ans是该询问的答案，Alphabet是字母表大小。

算法.这一问题的基础思路和上两题类似。字典序第k小子串——自动机中字典序第k小的路径。因此，考虑从每个状态出发的不同路径数，我们将得以轻松地确定第k小路径，从初始状态开始逐位确定答案。

最小循环移位

问题.给定字符串S，找到和它循环同构的字典序最小字符串。

复杂度要求.O(length(S)).

算法.我们将字符串S+S建立后缀自动机。该自动机将包含和S循环同构的所有字符串。

从而，问题就简化成了在自动机中找出字典序最小的，长度为length(S)的路径，这很简单：从初始状态开始，每一步都贪心地走，经过最小的转移。

×出现次数查询

问题.给定文本T，询问格式如下：给定字符串P，希望找出P作为子串在文本T中出现了多少次（出现区间可以相交）。

复杂度要求.预处理O(length(T))，单次询问O(length(P)).

算法.我们将文本T建立后缀自动机。

然后我们需要进行预处理：对自动机中的每个状态v都计算cnt[v]，等于其endpos(v)集合的大小。事实上，所有在T中对应同一状态的字符串都在T中出现了相同次数，该次数等于endpos中的位置数。

不过，我们无法对所有状态明确记录endpos集合，所以我们只计算其大小cnt.

为了实现这一点，如下处理。对每个状态，如果它不是由“拷贝”而来，最初就赋值cnt=1.然后我们按长度len降序遍历所有序列，并将当前的cnt[v]加给后缀链接：

cnt[link(v)]+=cnt[v].

你可能会说我们并没有对每个状态计算出了正确的cnt值。

为什么这是对的？不经“拷贝”而来的状态恰好有length(S)个，而且其中的第i个是我们添加第i个字符时得到的。因此，最初这些状态的cnt=1，其他状态的cnt=0.

然后我们对每个状态v执行如下操作：cnt[link(v)]+=cnt[v].其意义在于，如果某字符串对应状态v，曾在cnt[v]中出现过，那么它的所有后缀都同样在其中出现。

这样，我们就掌握了如何对自动机中所有状态计算cnt值的方法。

在此之后，询问的答案就变得平凡——只需要返回cnt[t]，其中t是模式串P所对应的状态。

×首次出现位置查询

问题.给定文本T，询问格式如下：给定字符串P，求P在文本中第一次出现的位置。

复杂度要求.预处理O(length(T))，单次询问O(length(P)).

算法.对文本T建立后缀自动机。

为了解决这一问题，我们需要预处理firstpos，找到自动机中所有状态的出现位置，即，对每个状态v我们希望找到一个位置firstpos[v]，代表其第一次出现的位置。换句话说，我们希望预先找出每个endpos(v)中的最小元素（我们无法明确记录整个endpos集合）。

维护这些firstpos的最简单方法是在构建自动机时一并计算，当我们创建新的状态cur时，一旦进入函数sa_extend()，就确定该值：

firstpos(cur)=len(cur)-1

（如果我们的下标从0开始）。

当拷贝节点q时，令：

firstpos(clone)=firstpos(q)，

（因为只有一个别的可能值——firstpos(cur)，显然更大）。

这样就得到了查询的答案——firstpos(t)-length(P)+1，其中t是模式串P对应的状态。

×所有出现位置查询

问题.给定文本T，询问格式如下：给定字符串P，要求给出P在T中的所有出现位置（出现区间可以相交）。

复杂度要求.预处理O(length(T))。单次询问O(length(P)+answer(P))，其中answer(P)是答案集合的大小，即，要求时间复杂度和输入输出同阶。

算法.对文本T建立后缀自动机，和上一个问题相似，在构建自动机的过程中对每个状态计算第一次出现的终点firstpos。

假设我们收到了一个询问——字符串P。我们找到了它对应的状态t。

显然应当返回firstpos(t)。还有哪些位置？我们考虑自动机中那些包含了字符串P的状态，即那些P是其后缀的状态。

换言之，我们需要找出所有能通过后缀链接到达状态t的状态。

因此，为了解决这一问题，我们需要对每个节点储存指向它的所有后缀链接。为了找到答案，我们需要沿着这些翻转的后缀链接进行DFS/BFS，从状态t开始。

这一遍历将在O(answer(P))时间内结束，因为我们不会访问同一状态两次（因为每个状态的后缀链接仅指向一个点，因此不可能有两条路径通往同一状态）。

然而，两个状态的firstpos值可能会相同，如果一个状态是由另一个拷贝而来。但这不会影响渐进复杂度，因为每个非拷贝得到的节点只会有一个拷贝。

此外，你可以轻松地除去那些重复的位置，如果我们不考虑那些拷贝得来的状态的firstpos。事实上，所有拷贝得来的状态都被其“母本”状态的后缀链接指向。因此，我们对每个节点记录标签is_clon，我们不考虑那些is_clon=true的状态的firstpos。这样我们就得到了answer(P)个不重复地状态。

查询不在文本中出现的最短字符串

问题.给定字符串S和字母表。要求找出一个长度最短的字符串，使得它不是S的子串。

复杂度要求.O(length(S)).

算法.在字符串S的后缀自动机上进行动态规划。

令d[v]为节点v的答案，即，我们已经输入了字符串的一部分，匹配到v，我们希望找出有待添加的最少字符数量，以到达一个不存在的转移。

计算d[v]非常简单。如果在v处某个转移不存在，那么d[v]=1：用这个字符来“跳出”自动机，以得到所求字符串。

否则，一个字符串无法达到要求，因此我们必须取所有字符中的最小答案：

原问题的答案等于d[t_0]，而所求字符串可以用记录转移路径的方法得到。

求两个字符串的最长公共子串

问题.给定两个字符串S和T。要求找出它们的最长公共子串，即一个字符串X，它同时是S和T的子串。

复杂度要求.O(length(S)+length(T)).

算法.我们对字符串S建立后缀自动机。

我们按照字符串T在自动机上走，查找它每个前缀在S中出现过的最长后缀。换句话说，对字符串T中的每个位置，我们都想找出S和T在该位置结束的最长公共子串。

为了实现这一点，我们定义两个变量：当前状态v和当前长度l。这两个变量描述了当前的匹配部分：其长度和状态，对应哪个字符串（如果不储存长度就无法确定这一点，因为一个状态可能匹配多个有不同长度的字符串）。

最初，p=t_0,l=0，即，匹配部分为空。

现在我们考虑字符T[i]，我们希望找到这个位置的答案。

如果自动机中的状态v有一个符号T[i]的转移，我们可以简单地走这个转移，然后将长度l加一。
如果状态v没有该转移，我们应当尝试缩短当前匹配部分，为此应当沿着后缀链接走：
v=link(v).
在此情况下，当前匹配长度必须被减少，但留下的部分尽可能多。显然，应令l=len(v)：
l=len(v).
若新到达的状态仍然没有我们想要的转移，那我们必须再次沿着后缀链接走，并且减少l的值，直到我们找到一个转移（那就返回第一步），或者我们最终到达了空状态-1（这意味着字符T[i]并未在S中出现，所以令v=l=0然后继续处理下一个i）。

原问题的答案就是l曾经达到的最大值。

这种遍历方法的渐进复杂度是O(length(T))，因为在一次移动中我们要么将l加一，要么沿着后缀链接走了若干次，每次都会严格减少l。因此，l总共的减少值之和不可能超过length(T)，这意味着线性时间复杂度。