学懂字符串

最新推荐文章于 2022-05-22 21:26:44 发布

OneInDark

最新推荐文章于 2022-05-22 21:26:44 发布

阅读量221

点赞数

分类专栏：字符串 # SA/SAM C++ 文章标签： c++

本文链接：https://blog.csdn.net/qq_42101694/article/details/113886470

版权

C++ 同时被 3 个专栏收录

547 篇文章 3 订阅

订阅专栏

字符串

38 篇文章 0 订阅

订阅专栏

SA/SAM

13 篇文章 0 订阅

订阅专栏

1.双色球

题目

有两个字符串 $S, T$ 均只由 $R, B$ 两种字符组成。开奖时，有一组非空字符串 $(P, Q)$ 均由 $0, 1$ 组成，并将 $S, T$ 中的 $R, B$ 字符分别替换为 $P, Q$ 字符串。也就是说， $S, T$ 会变成一大堆 $P, Q$ 等的重复拼接。如果进行替换后有 $S = T$ ，那就中奖了。

将不同的 $P, Q$ 满足 $\max(|P|,|Q|)\leqslant n$ 并且能够使 $S, T$ 中奖的数量记为 $f (S, T)$ 。现在给出由 RB? 三种字符构成的 $S^{'}, T^{'}$ （长度不超过 $3\times 10^5$ ）与 $n\;(n\leqslant 3\times 10^5)$ ，问，将每个 ? 随机替换为 RB 之一后，得到的 $f (S, T)$ 的期望。输出对大质数取模。

思路

如果没有问号怎么做？反正我是连这个都不会。~~真不愧是简单例题~~。

考虑 $P, Q$ 有什么性质。首先，如果 $S, T$ 同时以 R 或 B 开头或结尾，这对 $P, Q$ 没有任何约束作用，可以删去。删去之后，如果 $S, T$ 都是空串，那我没话说了，直接输出 $2^{n+1}-1)^2$ 走人。如果其中之一是空串，那么 puts("0") 完事儿。接下来考虑 $S, T$ 都非空。

不妨设 $|P|\leqslant|Q|$ 。由于 $S, T$ 的开头字符不同，则替换后的开头字符串是 $P, Q$ ，若想匹配，必须使 $P$ 是 $Q$ 的前缀。类似地， $P$ 还需要是 $Q$ 的后缀。所以我们得到了性质一。

$P$ 需要是 $Q$ 的一个 $\rm border$ 。

这是我们利用开头、结尾得到的。试着利用一下第二个位置吧。

不妨设
$\begin{aligned} S&=Q\cdots\\ T&=\underbrace{PPP\cdots P}_{k 个 P}Q\cdots \end{aligned}$

如果 $k\cdot |P|\geqslant |Q|$ ，那么 $P$ 是 $Q$ 的周期。如果 $k\cdot|P|<|Q|$ 呢？注意 $T=k\times P+Q$ ，末尾上是一个 $Q$ 。它要和 $Q$ 匹配，需要 $Q$ 存在长度为 $|Q|-k\cdot|P|$ 的 $\rm border$ ，也就是 $k\cdot|P|$ 的周期。如果 $P$ 重复 $k$ 次是一个周期，肯定也会有 $P$ 是 $Q$ 的周期。于是我们找到了性质二。

$P$ 需要是 $Q$ 的一个周期。

$P$ 是 $Q$ 的 $\rm border$ 说明 $|Q|{\rm-}|P|$ 是 $Q$ 的周期。根据 弱周期引理¹ 可知 $\gcd(|P|,|Q|{\rm-}|P|)=\gcd(|P|,|Q|)$ 为 $Q$ 的周期。而 $P$ 又是 $Q$ 的前缀，所以它也是 $P$ 的周期。更巧妙的是，它是 整周期（周期长度是字符串长度的因数）。

那么我们得到了这样一个结论：存在字符串 $L$ 使得 $P=p\times L,\;Q=q\times L$ 。为了不重复计数，应当规定 $\gcd(p,q)=1$ 即 $p\perp q$ 。

既然如此，可见 $L$ 的长相并不重要，只要 $S, T$ 中 $L$ 的个数一样即可。不妨设 $S_R$ 为 $S$ 中 $R$ 的数量， $S_B,T_R,T_B$ 同理，则
$ans=\sum_{L=1}^{n}\sum_{p=1}^{\lfloor{n\over L}\rfloor}\sum_{q=1}^{\lfloor{n\over L}\rfloor}\big[p\perp q\big]\big[pS_R+qS_B=pT_R+qT_B\big] \times 2^L$

右边的真值括号，可以稍微化简一下。记 $\Delta R=S_R-T_R,\;\Delta B=T_B-S_B$ ，方程可以写成
$p\cdot \Delta R=q\cdot \Delta B$

特殊讨论一下 $\Delta R=\Delta B=0$ 的情况，因为 $0$ 的很多倍数关系很特殊 😂 此种情形下 $p, q$ 只需要互质。所以
$ans=\sum_{L=1}^{n}2^L\left(2\sum_{j=1}^{\lfloor{n\over L}\rfloor}\varphi(j)-1\right)$

括号里面的求和，是先求和、再乘二、最后减一，经典的计算互质数对。这个可以 $\mathcal O(\sqrt{n})$ 整除分块一下。

除去上面的情况，不妨设 $\Delta R\ne 0$ 。那么 $p\perp q$ 但 $p\cdot\Delta R$ 是 $q$ 的倍数 $\Rightarrow \Delta R$ 是 $q$ 的倍数。

令 $k=\frac{\Delta R}{q}={\Delta B\over p}\in\Z$ 则 $\Delta R=kq,\;\Delta B=kp\Rightarrow k=\gcd(\Delta R,\Delta B)\Rightarrow$
$p={\Delta B\over\gcd(\Delta R,\Delta B)},\;q={\Delta R\over\gcd(\Delta R,\Delta B)}$

发现 $p, q$ 的解与 $L$ 无关。所以，最终实际等价于
$ans=\sum_{L=1}^{\lfloor{n\over\max(p,q)}\rfloor}2^L$

这个可以 $\mathcal O(1)$ 算，只要预处理 $2^x\;(1\leqslant x\leqslant n)$ 即可。所以，没有问号的情况解决啦！

有问号呢？发现答案只跟 $\Delta R,\Delta B$ 有关。考虑枚举增量。令 $\Delta R,\Delta B$ 为不考虑问号时的差值，设 $S_?,T_?$ 代表问号的数量，用 $F (r, b)$ 表示上面的过程，则
$ans=\sum_{d=-T_?}^{S_?}F(\Delta R+d,\Delta B-S_?+T_?+d)\sum_{i=0}^{+\infty}{S_?\choose i}{T_?\choose i-d}$

~~这个式子没准儿写错了。大家懂我的意思就行。打代码的时候可以自己推一推。~~

后面那个组合数 $=\sum_{i=0}^{S_?}{S_?\choose S_?-i}{T_?\choose i-d}={S_?+T_?\choose S_?-d}$ 可以 $\mathcal O(n)$ 预处理出所有 ${S_?+T_?\choose x}$ 然后 $\mathcal O(1)$ 查。

显然 $F (0, 0)$ 最多发生一次。总复杂度
$\mathcal O(n+\sqrt{n})=\mathcal O(n)$

2.听天由命

题目

对于 $01$ 串 $S$ ，定义 $\zeta_{i}$ 为第 $i$ 个字符开始的后缀。再定义
$F(i,j)=\max\big\{k\;\big\vert\;\operatorname{lcp}(\zeta_i,\zeta_{j-k+1})\geqslant k\big\}$

即，使得 $\operatorname{lcp}(\zeta_i,\zeta_{j-k+1})\geqslant k$ 的最大 $k$ 值。现在你要求出 $\sum_{i=1}^{|S|-1}\sum_{j=i+1}^{|S|}F(i,j)$ 。为了不取模，让 $|S|\leqslant 10^6$ 吧。

为了与题目名「听天由命」吻合，保证 $S$ 使用线性同余随机生成。

思路

问题真的就要靠「听天由命」解决。首先将 $F$ 转化为 $\rm border$ 。而 $\rm border$ 要出现至少两次。

找 $S$ 的一个长度为 $L$ 的子串。假如它在另一个地方也出现过，那么每一位都要与它匹配。所以概率是 $2^{-L}$ 。任选两个长度为 $L$ 的子串都累加一次概率，这是一个很大的上界（很多情况重复计算了），但是也只有不到 $n^2\over 2^L$ ，只要你取 $L=2\log n+20$ ，概率就低至 $0.000001$ （~~如果这都~~ $\sout{\;\tt WA\;}$ ~~了那我确实没办法了~~）。

所以，我们相信 $L\leqslant \mathcal O(\log n)$ 。有了这个，我们可以考虑枚举一个 $\rm border$ （一共只有 $\mathcal O(nL)$ 个嘛），然后直接 ${cnt\choose 2}\times$ 长度就完事儿了……吗？

$\rm border$ 需要是最长。直接枚举一个 $\rm border$ 不一定是最长的。不过这也很容易避免，就是 ${cnt\choose 2}\times($ 长度 $-$ $\rm border$ 长度 $)$ 呗。因为这个枚举的 $\rm border$ 对应的串，也被它的 $\rm border$ 计算了恰好一次。

怎么求 $\rm border$ 呢？对 $(n - L + 1)$ 个长度为 $L$ 的子串都做一遍 $\rm kmp$ 就行。

复杂度 $\mathcal O(n\log n)$ ，且代码实现不难。~~然而没写过代码的我有什么资格说呢~~。

3. $\rm Ctrl+C$

题目

$\sf OneInDark$ 有一篇博客要写。这篇博客可以抽象为字符串 $S$ 。现在，他想要发布这篇博客，不过打字实在是太累了，他想要利用 $\rm Ctrl+C$ 合理省事。

具体而言， $\sf OneInDark$ 认为，一口气打出一段文字（即一个字符串）会产生 $b$ 的劳累值（与字符串长度无关）。注意必须是一口气打完，不能中断。但是 $\rm Ctrl+C$ 需要用鼠标选中文本，所以代价是 $a\times($ 文本长度 $)$ 的劳累值。注意：即使一个字符串没有被粘贴，愚蠢的 $\sf OneInDark$ 还是要复制它一次。粘贴呢？ $\rm Ctrl+V$ 是多么爽的过程，不会带来劳累！

比如文章 $\rm I\;am\;abababa$ ，可以进行如下操作：打出 $\rm I\;am\;a$ 并复制，产生 $b + 6 a$ 的劳累值（空格也是字符）；打出 $\rm ba$ 并复制，产生 $b + 2 a$ 的劳累值；然后粘贴两次，不产生劳累值。

现在的唯一问题是，最小劳累值是多少？如果这个值太大， $\sf OneInDark$ 只好说 “我有一个绝妙的想法，可是这个 $\sout{csdn}$ 太丑网速太慢写不了。”

有多篇文章，但是总长不超过 $5\times 10^5$ 且单篇文章长度不超过 $10^5$ 。

思路

我会用 $S [i : j]$ 表示字符串 $S$ 的第 $i$ 个字符到第 $j$ 个字符形成的子串。~~确实有点丑，习惯就好。~~

问题转化一下：将原字符串分段，如果第 $i$ 段的最小循环节长度为 $r$ 则代价为 $a r + b$ ，求最小代价。

$\tt dp$ 的想法很自然，~~只是不容易优化~~。有两个难点，一是转移边太多，二是判断最小循环节长度很难。

事实证明，不是第二个问题难，只是我见得太少。老师给了个串串划分的题目（或许是给错了 😐），我不是很懂内在联系。不管怎么说，这一点是对的：如果 $r$ 要连续出现 $k$ 次，那么至少要连续出现 $2$ 次，而 连续出现 $2$ 次（我们称为 “平方串”）是可以求解的。这个东西与优秀的拆分是很相似的。

考虑一个长度为 $2 L$ 的 “平方串” 。如果把原序列的 $xL(x\in\N^+)$ 位置打一个标记，“平方串” 一定恰好碰到两个相邻的标记。利用这个性质，我们考虑从标记反推 “平方串” 。

用 $L (x)$ 表示第 $x$ 个标记和第 $x - 1$ 个标记能够往左匹配多少。 $R (x)$ 则是往右。形如

L(x)   bacd#....bacd#......
R(x)   ....#snmcb...#snmcb.

这俩拼在一起，不就是一个 “平方串” 吗？很简单吧？并且标记总数是 $\mathcal O(n\log n)$ 的，求 $L (x), R (x)$ 可以用后缀数组查询 $l c p$ ，总复杂度 $\mathcal O(n\log n)$ 。~~但是确实想不到啊~~。

好，我们学会 “平方串” 的判断了。然后 $\tt dp$ 还是跑不动。没关系，跑不动就建图，图常常有更优美的性质。假设有一个 “平方串” 是 $S [i : i + 2 L - 1]$ ，那么 $dp_{i+2L-1}$ 可以从 $dp_{i-1}$ 转移而来。可是相差 $3 L$ 呢？显然不能暴力连边了。 $3 L$ 等价于两个 “平方串” 同时满足，必然可以缩成一种路径。

每个点建一个虚点 $i'_L$ 表示 已经上车了，步长为 $L$ 。上车的代价是 $a r + b$ 而下车不花钱，~~像极了现实中的公交车~~。往下坐一个站，需要此处仍是 “平方串” 。形式化的：

如果有一个以 $i - L$ 开头的长度为 $2 L$ 的 “平方串”，那么 $i\leftarrow (i+L)'_L$ 权值为 $a L + b$ ，再连 $i'_L\leftarrow (i+L)'_L$ 权值为 $0$ ，也要连 $i'_L\leftarrow (i-L)'_L$ 权值为 $0$ 。

这样显然是正确的。 $(i+L)\rightarrow i'_L$ 表示直到 $i - L$ 都是以 $L$ 作为循环节。走 $(i+L)'_L\rightarrow i'_L$ 表示直到 $i - L$ 都是以 $L$ 作为循环节。走 $i'_L\rightarrow(i-L)$ 则完成转移。

此时，边数肯定是 $3\times($ 平方串个数 $)$ 的。点数则为 $2\times($ 平方串个数 $) + n$ 。能否进一步优化呢？

有些 “平方串” 是没用的，因为它们有一个更小的周期，选用这个更小的周期作为 $r$ 就更优。定义 “本原平方串” 为，满足 $∣ S ∣$ 除以最小循环节长度 $= 2$ 的字符串 $S$ 。

【留坑待填】根据 $\rm Runs\;Theorem$ ，只有 $\mathcal O(n)$ 个本质不同的 “本原平方串”，可以在 $\mathcal O(n\log n)$ 复杂度内找到。英文论文有点长，没读完。

4.金拱门

题目

金拱门公司需要一个新的标志。它们想整一个那样的：某个字符串写很多次，整体结构形成一个 $M$ 。

然而这个提议很快被玩坏了。因为那个字符串要用 $M$ 拼凑而成， $M$ 则又是多个字符串形成的……

具体而言，一个字符串 $S$ 的迭代次数为，其所有在 $S$ 中出现过至少 $2$ 次（毕竟 $M$ 需要两个拱门嘛）的子串 $S^{'}$ 的迭代次数中最大的一个 $+ 1$ 。如果没有 $S^{'}$ 存在，迭代次数为 $1$ （玩不起了）。形式化的，
$f(S)=\max_{S'\;{\rm appear\;at\;least\;twice}}f(S')+1$

对于给定串 $S(|S|\le 2\times 10^5)$ 请求出其迭代次数，即 $f (S)$ 的值。保证 $S$ 由小写字母组成。

思路

对于 $f (S)$ 来说，要么 $S^{'}$ 是其后缀，要么不是。对于 $S^{'}$ 不是后缀的情况，可以直接由 $f (S)$ 去掉末尾字符得到。所以只考虑 $S^{'}$ 是其后缀的情况。

$S$ 有很多个后缀，长度越短越容易出现过两次。而长度越长 $S$ 越大，即 $\forall S'\subseteqq S,\;f(S')\le f(S)$ ，所以我们需要找出最长的一个。

能否在 $S$ 的 $\tt SAM$ 的 $\rm parent\;tree$ 上二分呢？还是用权值线段树合并维护 $e n d p o s$ 的话，复杂度是 $\mathcal O(n\log^2n)$ 的。

这里就有一个常见套路了：如果 附加权值是 $1$ ，那么附加权值不会影响决策点。也就是说，如果 $f(S'_1)<f(S'_2)$ 了，哪怕 $S'_1$ 能 $+ 1$ 也只能跟 $S'_2$ 打个平手。而 $f(S)=f(S')+[S'\;{\rm appear\;at\;least\;twice}]$ 恰好满足这一条件。

所以我们直接用最大的 $f (S)$ ，也就是 $\rm parent\;tree$ 上的父亲……吗？如果 $f$ 相等，就要取最短者了。利用并查集，快速查找相等的 $f (S)$ 中最短的 $S$ 。那么 $f (S)$ 直接用 $f a (S)$ 在并查集中的根节点转移就行了。

复杂度 $\mathcal O(n\log n+|\Sigma|\cdot n)$ 即可完成。

弱周期引理：若字符串 $S$ 存在两个周期 $x, y$ 满足 $x+y\le|S|$ 则 $\gcd(x,y)$ 也是 $S$ 的周期。简要证明： $S_i=\{S_{i+x}$ 或 $S_{i-y}\}=S_{i+x-y}\Rightarrow|x-y|$ 为周期 $\Rightarrow \gcd(x,y)$ 为周期（过程类似更相减损）。 ↩︎