【转载&总结】后缀数组及广泛应用

最新推荐文章于 2021-11-23 17:45:36 发布

weixin_34293059

最新推荐文章于 2021-11-23 17:45:36 发布

阅读量110

点赞数

原文链接：http://www.cnblogs.com/Lanly/p/7282129.html

版权

转自：http://blog.csdn.net/yxuanwkeith/article/details/50636898 五分钟搞懂后缀数组！后缀数组解析以及应用(附详解代码) 作者：YxuanwKeith

为什么学后缀数组

后缀数组是一个比较强大的处理字符串的算法，是有关字符串的基础算法，所以必须掌握。
学会后缀自动机(SAM)就不用学后缀数组(SA)了？不，虽然SAM看起来更为强大和全面，但是有些SAM解决不了的问题能被SA解决，只掌握SAM是远远不够的。
……

有什么SAM做不了的例子？
比如果求一个串后缀的lcp方面的应用，这是SA可以很方便的用rmq来维护，但是SAM还要求lca，比较麻烦，还有就是字符集比较大的时候SA也有优势。

现在这里放道题，看完这个blog可能就会做了！：
你可想想这道题：你有一个01串S，然后定义一个前缀最右边的位置就是这个前缀的结束位置。现在有q多个询问，每个询问结束位置在l~r中不同前缀的最长公共后缀是多长？

而下面是我对后缀数组的一些理解

构造后缀数组——SA

先定义一些变量的含义

Str ：需要处理的字符串(长度为Len)
Suffix[i] ：Str下标为i ~ Len的连续子串(即后缀)
Rank[i] : Suffix[i]在所有后缀中的排名
SA[i] : 满足Suffix[SA[1]] < Suffix[SA[2]] …… < Suffix[SA[Len]],即排名为i的后缀为Suffix[SA[i]] (与Rank是互逆运算)
好，来形象的理解一下
这就是Rank和SA
后缀数组指的就是这个SA[i],有了它，我们就可以实现一些很强大的功能(如不相同子串个数、连续重复子串等)。如何快速的到它，便成为了这个算法的关键。而SA和Rank是互逆的，只要求出任意一个，另一个就可以O(Len)得到。
现在比较主流的算法有两种，倍增和DC3，在这里，就主要讲一下稍微慢一些，但比较好实现以及理解的倍增算法(虽说慢，但也是O(Len logLen))的。

进入正题——倍增算法

倍增算法的主要思想 ：对于一个后缀Suffix[i],如果想直接得到Rank比较困难，但是我们可以对每个字符开始的长度为

构造最长公共前缀——Height

同样先是定义一些变量

Heigth[i] : 表示Suffix[SA[i]]和Suffix[SA[i - 1]]的最长公共前缀，也就是排名相邻的两个后缀的最长公共前缀
H[i] : 等于Height[Rank[i]]，也就是后缀Suffix[i]和它前一名的后缀的最长公共前缀
而两个排名不相邻的最长公共前缀定义为排名在它们之间的Height的最小值。
跟上面一样，先形像的理解一下：
这就是Height

高效地得到Height数组

如果一个一个数按SA中的顺序比较的话复杂度是O(级别的，想要快速的得到Height就需要用到一个关于H数组的性质。
H[i] ≥ H[i - 1] - 1!
如果上面这个性质是对的，那我们可以按照H[1]、H[2]……H[Len]的顺序进行计算，那么复杂度就降为O(N)了！
让我们尝试一下证明这个性质 : 设Suffix[k]是排在Suffix[i - 1]前一名的后缀，则它们的最长公共前缀是H[i - 1]。都去掉第一个字符，就变成Suffix[k + 1]和Suffix[i]。如果H[i - 1] = 0或1,那么H[i] ≥ 0显然成立。否则，H[i] ≥ H[i - 1] - 1(去掉了原来的第一个,其他前缀一样相等)，所以Suffix[i]和在它前一名的后缀的最长公共前缀至少是H[i - 1] - 1。
仔细想想还是比较好理解的。H求出来，那Height就相应的求出来了，这样结合SA，Rank和Height我们就可以做很多关于字符串的题了！

 1 /*
 2     Problem: JZOJ1598(询问一个字符串中有多少至少出现两次的子串)
 3     Content: SA's Code and Explanation
 4     Author : YxuanwKeith
 5 */
 6 
 7 #include <cstdio>
 8 #include <cstring>
 9 #include <algorithm>
10 
11 using namespace std;
12 
13 const int MAXN = 100005;
14 
15 char ch[MAXN], All[MAXN];
16 int SA[MAXN], rank[MAXN], Height[MAXN], tax[MAXN], tp[MAXN], a[MAXN], n, m; 
17 char str[MAXN];
18 //rank[i] 第i个后缀的排名; SA[i] 排名为i的后缀位置; Height[i] 排名为i的后缀与排名为(i-1)的后缀的LCP
19 //tax[i] 计数排序辅助数组; tp[i] rank的辅助数组(计数排序中的第二关键字),与SA意义一样！
20 //a为原串
21 void RSort() {
22     //rank第一关键字,tp第二关键字。
23     for (int i = 0; i <= m; i ++) tax[i] = 0;//计数初始化
24     for (int i = 1; i <= n; i ++) tax[rank[tp[i]]] ++;
25     for (int i = 1; i <= m; i ++) tax[i] += tax[i-1];//前缀和求出排名
26     for (int i = n; i >= 1; i --) SA[tax[rank[tp[i]]] --] = tp[i]; //确保满足第一关键字的同时，再满足第二关键字的要求
27 } //计数排序,把新的二元组排序。
28 
29 int cmp(int *f, int x, int y, int w) { return f[x] == f[y] && f[x + w] == f[y + w]; } 
30 //通过二元组两个下标的比较，确定两个子串是否相同
31 
32 void Suffix() {
33     //SA
34     for (int i = 1; i <= n; i ++) rank[i] = a[i], tp[i] = i;
35     m = 127 ,RSort(); //一开始是以单个字符为单位，所以(m = 127)
36 
37     for (int w = 1, p = 1, i; p < n; w += w, m = p) { //把子串长度翻倍,更新rank
38 
39         //w 当前一个子串的长度; m 当前离散后的排名种类数
40         //当前的tp(第二关键字)可直接由上一次的SA的得到
41         for (p = 0, i = n - w + 1; i <= n; i ++) tp[++ p] = i; //长度越界,第二关键字为0
42         for (i = 1; i <= n; i ++) if (SA[i] > w) tp[++ p] = SA[i] - w;
43 
44         //更新SA值,并用tp暂时存下上一轮的rank(用于cmp比较)
45         RSort(), swap(rank, tp), rank[SA[1]] = p = 1;
46 
47         //用已经完成的SA来更新与它互逆的rank,并离散rank
48         for (i = 2; i <= n; i ++) rank[SA[i]] = cmp(tp, SA[i], SA[i - 1], w) ? p : ++ p;
49     }
50     //离散：把相等的字符串的rank设为相同。
51     //LCP
52     int j, k = 0;
53     for(int i = 1; i <= n; Height[rank[i ++]] = k) 
54         for( k = k ? k - 1 : k, j = SA[rank[i] - 1]; a[i + k] == a[j + k]; ++ k);
55     //这个知道原理后就比较好理解程序
56 }
57 
58 void Init() {
59     scanf("%s", str);
60     n = strlen(str);
61     for (int i = 0; i < n; i ++) a[i + 1] = str[i];
62 }
63 
64 int main() {
65     Init();
66     Suffix();
67 
68     int ans = Height[2];
69     for (int i = 3; i <= n; i ++) ans += max(Height[i] - Height[i - 1], 0);
70     printf("%d\n", ans);    
71 }

神奇的代码

4个比较基础的应用

Q1：一个串中两个子串的最大公共前缀是多少？
A1：这不就是Height吗？用rmq预处理，再O(1)查询。

最开始的那道题

先搬下来。。。

你可想想这道题：你有一个01串S，然后定义一个前缀最右边的位置就是这个前缀的结束位置。现在有很多个询问，每q个询问结束位置在l~r中不同前缀的最长公共后缀是多长？

简单思路：首先可以把字符串反过来就是求后缀的最长公共前缀了，可以用SA求出height数组，然后用rmq预处理之后就是求两个位置间的最小值。然后对于一个区间，显然只有在SA数组中相邻的两个串可以贡献答案。
对于区间询问的问题可以用莫队处理，然后考虑加入一个后缀应该怎么处理，我们可以维护一个按SA数组排序的链表。假设我们先把所有位置的SA全部加入，然后按顺序删除，重新按顺序加入时就可以O(1)完成修改。那么按照这个思路我们可以用固定左端点的并查集，做到只加入，不删除，然后用

*可能后面的处理方式比较麻烦，如果直接用splay维护区间中的后缀的话可以做到

结束

以上就是我对后缀数组的理解 ——YxuanwKeith

简要总结

后缀数据充分利用了先前的信息，使得效率有可观性地提高。

suddix[i]表示后缀开始位置为i的后缀字符串

rank[i]表示第i个后缀的排名

sa[i]表示排名第i的后缀位置

height[i]表示排名为i和i-1的后缀字符串的最长公共前缀长度

以下是个人关于几个应用的理解

1.求字符串中可重叠的最长公共子串

根据height定义很显然这个就是height中的最大值了。

2.求字符串中不可重叠的最长公共子串

这个我们需要二分答案再验证，我们要二分可能的公共子串长度k，然后按sa的顺序对height进行分组，使组内的height值都不小于k，然后对于某个组内我们只要考察该组内sa的最大值和最小值的差是否大于等于k（实际上就是这两个后缀的开头是否相差k从而避免重叠），有则k成立。

3.求字符串中可重叠K次的最长公共子串

这个我们跟2差不多，二分公共长度k分组，然后我们考察每个组内的后缀个数是否大于等于K，有则K成立。

4.求字符串中不相同的子串个数

每个子串必定是某个后缀的前缀，那问题就是求所有后缀中不相同的前缀的个数，我们从顺序sa[1],sa[2],sa[3],不难发现每加入一个suffix[sa[i]]，它有n-sa[i]+1个前缀（就是这个后缀的长度），其中有height[i]是和前面的字符串相同（最长公共前缀嘛），所以这个字符串会贡献出n-sa[i]+1-height[i]不同的子串，累加后就可以了。

5.求字符串中最长的回文子串

所谓回文就是一个字符串满足中心对称，某个字符为对称中心，从这个字符向左和向右对应位置的字母都相等，如12345678987654321，我们设这个中心对称的字符为a[i],则我们就要判断 a[i-k]与a[i+k]是否相等，我们可以把整个字符串倒过来写在这个字符串后面（我们就得到了逆过来的那个12345678的字符串），其中加个特殊符号，这样我们可以简化判断，只用判断这新的字符串的某两个字符串的最长公共前缀

6.求字符串中连续的重复子串

已知一个字符串L是由某个字符串S重复R次得到的求最大值。

我们假设S的长度为k，首先L%k=0，然后判断suffix[1],和suffix[k+1]的最长公共子串是否为n-k。因此在查找最长公共子串的时候就是求height[rank[k+1]]到height[rank[1]]之间的最小值。因此我们的做法就是求height数组中每一个数到height[rank[1]]之间的数的最小值k，R=L的长度/K

7.求字符串中重复次数最多的连续重复子串

8.求两个字符串的最长公共子串

将这两个字符串连接起来，其中用一个特殊符号分开，然后再求出不在同一个字符串中的最大的height值即可。

9.求长度不小于K的最长公共子串

将两个字符串A、B连接起来，其中用一个特殊符号分开，然后用k对height数组分组，再统计每组的最长公共前缀和。每遇到一个B子串，就统计与前面A子串产生多少个长度不小于K的公共子串，这里A需要用栈来维护。然后对A也一样的处理。

10.求n个字符串的最长公共子串

这个用KMP可以处理，也可以将这n个字符串连成一个字符串，然后用不同的特殊符号分开，二分长度k对height数组进行分组判定是否该组中所有字符串的子串都出现在里面即可。

转载于:https://www.cnblogs.com/Lanly/p/7282129.html

weixin_34293059

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【转载&总结】后缀数组及广泛应用

转自：http://blog.csdn.net/yxuanwkeith/article/details/50636898五分钟搞懂后缀数组！后缀数组解析以及应用(附详解代码)作者：YxuanwKeith为什么学后缀数组后缀数组是一个比较强大的处理字符串的算法，是有关字符串的基础算法，所以必须掌握。学会后缀自动机(SAM)就不用学后缀数组(SA)了？不，虽然SAM看起来更为强大和...
复制链接

扫一扫