后缀数组学习笔记(倍增)
基础定义
子串:就是字符串的一部分,必须连续。
后缀:是一种子串,它的结尾必须为字符串的最后。
大小比较:就是字典序比较,从头开始比,不相同的话字典序大的那个大,假如相同就向后移动。假如移到其中一个串的结尾还相同的话,长的那个大。
后缀数组:把所有的后缀编号,排序后把编号存在这个数组里。
名次数组:存的是每个后缀的名次
sa[i]:求出排名第i位的是第几个后缀(第i个后缀指的是第i个字符开始的后缀)
rk[i]:第i个后缀排名是多少
sa与rk是互逆的
height[i]:sa[i]与sa[i-1]的最长公共前缀
首先以第一个字符作为第一关键字来排序
在此需要用到基数排序
1、做前缀和
2、依次枚举每个数(从后向前枚举,一定是稳定的)
for(int i=1;i<=n;i++) c[x[i] = s[i]]++;
for(int i=2;i<=m;i++) c[i]+=c[i-1];
for(int i=n;i;i--) sa[c[x[i]]--] = i;
双关键字排序时:
1、统计每个第一关键字出现多少数
第一关键字从小到大排好后
2、将所有元素按照第二关键字排好后,从后往前按照第一关键字来排
3、将第一段和第二段离散化
如何求height[i] lcp(i,j)的一些性质
这里的i,j指的是rk[i],rk[j]所对应的字符串
①:lcp(i,j) == lcp(j,i)
②:lcp(i,i) == s[i].size()
③: lcp(i,j) == min(lcp(i,k),lcp(k,j));
如何利用此性质呢?
i和j的最长公共前缀等于从i到j的所有相邻字符串的最长公共前缀的最小值
如果暴力求,时间复杂度位 O ( n 2 ) O(n^2) O(n2)
那么
h[i]=height[rk[i]]表示第i个后缀与第i-1个后缀的最长公共前缀
h[i]>=h[i-1]-1;
模板题目
#include<bits/stdc++.h>
using namespace std;
const int N = 1e6+10;
char s[N];
int rk[N],sa[N],x[N],y[N],c[N],height[N];
int n,m;
void get_sa(){
for (int i = 1; i <= n; i ++ ) c[x[i] = s[i]] ++ ;
for (int i = 2; i <= m; i ++ ) c[i] += c[i - 1];
for (int i = n; i; i -- ) sa[c[x[i]] -- ] = i;
for (int k = 1; k <= n; k <<= 1)
{
int num = 0;
for (int i = n - k + 1; i <= n; i ++ ) y[ ++ num] = i;
for (int i = 1; i <= n; i ++ )
if (sa[i] > k)
y[ ++ num] = sa[i] - k;
for (int i = 1; i <= m; i ++ ) c[i] = 0;
for (int i = 1; i <= n; i ++ ) c[x[i]] ++ ;
for (int i = 2; i <= m; i ++ ) c[i] += c[i - 1];
for (int i = n; i; i -- ) sa[c[x[y[i]]] -- ] = y[i], y[i] = 0;
swap(x, y);
x[sa[1]] = 1, num = 1;
for (int i = 2; i <= n; i ++ )
x[sa[i]] = (y[sa[i]] == y[sa[i - 1]] && y[sa[i] + k] == y[sa[i - 1] + k]) ? num : ++ num;
if (num == n) break;
m = num;
}
}
int main(){
scanf("%s",s+1);
n = strlen(s+1),m = 122;
get_sa();
//get_height();
for(int i=1;i<=n;i++) printf("%d ",sa[i]);
// printf("\n");
// for(int i=1;i<=n;i++) printf("%d ",height[i]);
return 0;
}
后缀数组的应用
①、求子串s(l,r)的出现次数
二分height,满足length<=height;