字符串算法选讲

最新推荐文章于 2022-08-28 14:51:27 发布

Rose_max

最新推荐文章于 2022-08-28 14:51:27 发布

阅读量757

点赞数 1

分类专栏：学习笔记啥的

本文链接：https://blog.csdn.net/rose_max/article/details/98754815

版权

学习笔记啥的专栏收录该内容

28 篇文章 0 订阅

订阅专栏

符号与约定

$s [1 . . . x] = s [1] s [2] s [3] . . . s [x]$ 组成的字符串

$p r e [s, x] = s [1 . . . x], s u f [s, x] = s [∣ S ∣ - x + 1 . . . ∣ S ∣]$

周期和border

对于一个 $p\le|S|$ ，若满足对于任意 $i\in[1,|S|-p]$ ， $s_i=s_{i+p}$ ，则称 $p$ 是该串的一个周期

对于一个 $0\leq r<|S|$ ，若满足 $p r e [s, r] = s u f [s, r]$ ，则 $r$ 是该串的一个 $b o r d e r$

周期与 $b o r d e r$ 存在转化关系如下

$p r e [s, r]$ 是该串的 $b o r d e r$ $\Leftrightarrow$ $∣ S ∣ - r$ 是该串的一个周期

一个简明的小结论

$l c p (A, B)$ 表示 $A, B$ 两个串的最长公共前缀

对于拥有周期 $p$ 的串 $S$ ，一定满足的是 $l c p (s [1 . . . ∣ S ∣], s [1 + p . . . ∣ S ∣]) = ∣ S ∣ - p$

然后可以做的就是对于一个位置 $x$ ，找到最大的一个 $l$ 满足 $s [x . . . x + l - 1]$ 有周期 $P$

用 $S A$ 求一下 $s [x . . . ∣ S ∣]$ 和 $s [x + P . . . ∣ S ∣]$ 的 $l c p$ 即可…

Weak Periodicity Lemma

对于一个字符串 $S$ 的周期 $p, q$ ，若 $p+q\leq |S|$ ，则 $g c d (p, q)$ 也是 $S$ 的周期

钦定 $p > q$ ，不妨设 $d = p - q$ ，对于某个 $i$ 分类讨论

若 $i > p$ ，则 $i - p > 0$ ，故 $s [i] = s [i - p] = s [i - p + q] = s [i - d]$

否则 $i\leq p$ ，则 $i+q\leq |S|$ ，故 $s [i] = s [i + q] = s [i + q - p] = s [i - d]$

然后我们就发现了一个新的周期 $d$ ，发现他们在更相减损，故得证

Periodicity Lemma（拓展

对于一个字符串 $S$ 的周期 $p, q$ ，若 $p+q-gcd(p,q)\leq |S|$ ，则 $g c d (p, q)$ 也是 $S$ 的周期

证明貌似还不会…

字符串匹配的结论（引理1

若字符串 $u, v$ 满足 $2|u|\ge |v|$ ，则 $u$ 在 $v$ 中的所有匹配位置组成一个等差数列

考虑在序列中第一次匹配，第二次匹配以及另外某一次匹配

设第一次与第二次的间距为 $d$ ，第二次与另外一次的间距为 $q$

可以发现的是 $u$ 的最小周期 $p$ 也是第一次匹配和第二次匹配的并的周期

同时 $d$ 也是该串周期， $g c d (d, q)$ 也为该串周期

若 $p < d$ ，那么第二次匹配相差不应为 $d$ ，故 $p\ge d$ ，所以 $d=p\leq gcd(d,q)$ ，故有 $d ∣ q$

字符串匹配的结论（引理2

由上推导可知

若字符串 $u, v$ 满足 $2 ∣ u ∣ > ∣ v ∣$ ，且出现次数超过 $2$ ，则其构成的等差数列公差为 $u$ 的最小周期 $p$

证明如上

Border的结构

字符串 $S$ 的所有不小于 $\frac{|S|}{2}$ 的 $b o r d e r$ 长度组成一个等差数列

~~策爷的论文证明貌似有点奇怪…~~

~~并不是很清楚为什么 $p ∣ q$ 之后就直接等差了…~~

yy了一个东西，就是已经可以证明 $p ∣ q$ ，那么就是所有都是其倍数，只需要证明能出来 $n - p, n - 2 p$ 的这些 $b o r d e r$ 就可以了…注意到最小周期是 $p$ ，那么显然其倍数也是周期，周期对应了 $b o r d e r$ ，故得证

Border的进一步推论

根据如上的一个引理，我们已经证明了对于一个串，其所有长度不小于其一半的 $b o r d e r$ 是一个等差数列

考虑更小的，对其进行按长度的二进制分组，即 $1,2),[2,4),[4,8)...[2^k,n)$ 的各位一类

对于在某个类中的 $b o r d e r$ ，考虑其最长的，那么剩下的所有 $b o r d e r$ 一定都是最长的那个 $b o r d e r$ 的 $b o r d e r$

故以最长的 $b o r d e r$ 为母串，第一个的结论变成立了，故有如下进一步的结论

字符串 $S$ 的所有 $b o r d e r$ 能划分成 $\log |S|$ 个等差数列，对其二进制分组即可

一个例题

一个串 $S$ ，多次询问 $S [l . . . r]$ 的所有 $b o r d e r$ ，用等差数列表示

对每个 $2^i,2^{i+1})$ 考虑，若 $p r e (S, u) = s u f (S, u)$ 且 $u\in[2^i,2^{i+1})$ ，则一定有 $pre(S,2^i)$ 是该 $b o r d e r$ 的前缀， $suf(S,2^i)$ 是该 $b o r d e r$ 的后缀

在这里插入图片描述

求出 $pre(S,2^i)$ 在 $suf(S,2^{i+1})$ 中的所有匹配位置，以及 $suf(S,2^i)$ 在 $pre(S,2^{i+1})$ 中的所有匹配位置

翻转区间取交即可

注意这里的匹配运用引理1可知，均是公差相同的等差数列，故而取交可以做到 $O (1)$

把border拓展到回文串上

引理：对于一个回文串 $S$ ，其的一个后缀 $s u f (S, x)$ 也是回文串当且仅当 $p r e (S, x) = s u f (S, x)$ ，即其也为 $b o r d e r$

推论：一个字符串的所有回文后缀的长度可以表示为 $\log |S|$ 个等差数列

证明：~~我是sb~~，找到最长回文后缀之后就变成了回文串的问题了…

双回文串

如果 $S = a b$ ，满足 $a, b$ 均为回文串，则称 $S$ 是一个双回文串

引理1：如果 $S$ 是一个双回文串，则存在一种拆分方法 $S = a b$ ，满足 $a$ 是其最长回文前缀或 $b$ 是其最长回文后缀

引理2：如果 $S = x 1 x 2 = y 1 y 2 = z 1 z 2 （ ∣ x 1 ∣ < ∣ y 1 ∣ < ∣ z 1 ∣ ）$ ，满足 $x 2, y 1, y 2, z 1$ 均是回文串，则 $x 1, z 2$ 也为回文串

Lyndon word

满足 $S$ 的最小后缀是 $S$ 本身的串称为 $L y n d o n w o r d$

引理1：若 $u, v$ 均为 $L y n d o n$ 串，且 $u < v$ ，则 $u v$ 也为 $L y n d o n$ 串

引理2：任意一个字符串 $S$ 可以划分为 $S = s 1 s 2 s 3 . .$ ，满足 $s 1 s 2 s 3$ 均为 $L y n d o n$ 串且 $s_i\ge s_{i+1}$ ，且这种分解方法是唯一的

我们初始将其设为一段一个字符，每次合并相邻的满足 $s_i<s_{i+1}$ 的串，根据引理1这仍是一个 $L y n d o n$ 串

Duval’s Algorithm

在这里插入图片描述

Rose_max

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
字符串算法选讲

符号与约定s[1...x]=s[1]s[2]s[3]...s[x]s[1...x]=s[1]s[2]s[3]...s[x]s[1...x]=s[1]s[2]s[3]...s[x]组成的字符串pre[s,x]=s[1...x],suf[s,x]=s[∣S∣−x+1...∣S∣]pre[s,x]=s[1...x],suf[s,x]=s[|S|-x+1...|S|]pre[s,x]=s[1...x]...
复制链接

扫一扫

专栏目录