///定义:
/*
(1)子串:
字符串 S 的子串 r[i..j] , i ≤ j ,表示 r 串中从 i 到 j 这一段,
就是顺次排列 r[i],r[i+1],...,r[j] 形成的字符串。
(2)后缀:
后缀是指从某个位置 i 开始到整个串末尾结束的一个特殊子串。
字符串 r 的从 第 i 个字符开始的后缀表示为 Suffix(i) ,也就是Suffix(i)=r[i..len(r)] 。
(3)大小比较:
关于字符串的大小比较,是指通常所说的“字典顺序”比较,也就是对于两个字符串u、v,
令i 从1 开始顺次比较u[i]和v[i],如果u[i]=v[i]则令 i 加1,否则若u[i]<v[i]则认为
u<v,u[i]>v[i]则认为u>v(也就是v<u),比较结束。如果i>len(u)或者i>len(v)仍比较不出
结果,那么若len(u)<len(v) 则认为u<v ,若len(u)=len(v) 则认为u=v ,若len(u)>len(v)
则u>v。从字符串的大小比较的定义来看,S 的两个开头位置不同的后缀u 和v 进行比较的
结果不可能是相等,因为u=v 的必要条件len(u)=len(v)在这里不可能满足。
(4)后缀数组:
SA 是一个一维数组,它保存 1..n 的某个排列 SA[1 ] ,SA[2] , …… , SA[n] ,
并且保证suffix(SA[i]) < Suffix(SA[i+1]) , 1 ≤ i<n 。也就是将 S 的 n 个后缀
从小到大进行排序之后把排好序的后缀的开头位置顺次放入 SA 中。
*/
/*
基础应用:(Ctrl+C)
Q1:一个串中两个串的最大公共前缀是多少?
A1:这不就是Height吗?用rmq预处理,再O(1)查询。
Q2:一个串中可重叠的重复最长子串是多长?
A2:就是求任意两个后缀的最长公共前缀,而任意两个后缀的最长公共前缀都是Height
数组里某一段的最小值,那最长的就是Height中的最大值。
Q3:一个串种不可重叠的重复最长子串是多长?
A3:先二分答案,转化成判别式的问题比较好处理。假设当前需要判别长度为k
是否符合要求,只需把排序后的后缀分成若干组,其中每组的后缀之间的Height
值都不小于k,再判断其中有没有不重复的后缀,具体就是看最大的SA值和最小的SA值
相差超不超过k,有一组超过的话k就是合法答案。
A4:一个字符串不相等的子串的个数是多少?
Q4:每个子串一定是某个后缀的前缀,那么原问题等价于求所有后缀之间的
不相同的前缀的个数。而且可以发现每一个后缀Suffix[SA[i]]的贡献是Len - SA[i] + 1,
但是有子串算重复,重复的就是Heigh[i]个与前面相同的前缀,那么减去就可以了。最后,
一个后缀Suffix[SA[i]]的贡献就是Len - SA[k] + 1 - Height[k]。 对于后缀数组更多的应用这
里就不详细阐述,经过思考后每个人都会发现它的一些不同的用途,它的功能也许比你想象中的更强大!
*/
/*
(1)子串:
字符串 S 的子串 r[i..j] , i ≤ j ,表示 r 串中从 i 到 j 这一段,
就是顺次排列 r[i],r[i+1],...,r[j] 形成的字符串。
(2)后缀:
后缀是指从某个位置 i 开始到整个串末尾结束的一个特殊子串。
字符串 r 的从 第 i 个字符开始的后缀表示为 Suffix(i) ,也就是Suffix(i)=r[i..len(r)] 。
(3)大小比较:
关于字符串的大小比较,是指通常所说的“字典顺序”比较,也就是对于两个字符串u、v,
令i 从1 开始顺次比较u[i]和v[i],如果u[i]=v[i]则令 i 加1,否则若u[i]<v[i]则认为
u<v,u[i]>v[i]则认为u>v(也就是v<u),比较结束。如果i>len(u)或者i>len(v)仍比较不出
结果,那么若len(u)<len(v) 则认为u<v ,若len(u)=len(v) 则认为u=v ,若len(u)>len(v)
则u>v。从字符串的大小比较的定义来看,S 的两个开头位置不同的后缀u 和v 进行比较的
结果不可能是相等,因为u=v 的必要条件len(u)=len(v)在这里不可能满足。
(4)后缀数组:
SA 是一个一维数组,它保存 1..n 的某个排列 SA[1 ] ,SA[2] , …… , SA[n] ,
并且保证suffix(SA[i]) < Suffix(SA[i+1]) , 1 ≤ i<n 。也就是将 S 的 n 个后缀
从小到大进行排序之后把排好序的后缀的开头位置顺次放入 SA 中。
*/
///代码:
/*
**name:后缀树组
**function:处理字符串的有力神器
**输入参数:字符串(转化成整数类型)+字符串长度
**输出参数:sa[],rank[],height[]
**算法分类:倍增法
**复杂度:O(nlog(n))
*/
#include <iostream>
using namespace std;
int wa[MAXN],wb[MAXN],wv[MAXN];
int Ws[MAXN];
int sa[MAXN],rank[MAXN],height[MAXN];
/*
sa[i]:表示排名第i的后缀字符串的起始下标
rank[i]:表示起始下标是i的后缀字符串排名是rank[i]
height[i]:表示suffix[sa[i]]和sunffix[sa[i-1]]的lcp值
wa[]: 本意是保存各个后缀的rank值的,但是这里并没有去存储rank值,因为后续只是涉及wa[]的比较工作,
因而这一步可以不用存储真实的rank值,能够反映相对的大小即可。
wb[]: 存放的是按第二关键字排序的子串首字符下标
wv[]: 存放每个子串的第一关键字
ws[]: 存放每个rank值的数目
*/
int cmp(int *r,int a,int b,int l){
return r[a]==r[b] && r[a+l]==r[b+l];
}
/*
*r: 字符串(数组)
*sa: 后缀数组
n: 字符串中字符的个数,注意这里的n里面是包括人为在字符串末尾添加的那个0的
m: 字符串中字符的取值范围,是基数排序的一个参数,如果原序列都是字母可以直接取128,如果原序列本身都是整数的话,则m可以取比最大的整数大1的值。
*/
void SA(int *r,int n,int m){
int *x = wa,*y=wb;
for(int i = 0;i<m;i++) Ws[i] = 0;
for(int i = 0;i<n;i++)++Ws[x[i]=r[i]];
for(int i = 1;i<m;i++)Ws[i]+=Ws[i-1];
for(int i = n-1;i>=0;i--)sa[--Ws[x[i]]] = i;
int p = 1;
for(int j = 1;p<n;j<<=1,m=p){
p = 0;
for(int i = n-j;i<n;i++)y[p++] = i;
for(int i = 0;i<n;i++)if(sa[i]>=j)y[p++]=sa[i]-j;
for(int i = 0;i<n;i++)wv[i] = x[y[i]];
for(int i = 0;i<m;++i)Ws[i] = 0;
for(int i = 0;i<n;i++)++Ws[wv[i]];
for(int i = 1;i<m;i++)Ws[i] +=Ws[i-1];
for(int i = n-1;i>=0;--i)sa[--Ws[wv[i]]] = y[i];
swap(x,y);
x[sa[0]] = 0;
p = 1;
for(int i =1;i<n;i++){
x[sa[i]] = cmp(y,sa[i-1],sa[i],j)?p-1:p++;
}
}
for(int i = 1;i<n;i++)rank[sa[i]] = i;
int k = 0;
for(int i = 0;i<n-1;height[rank[i++]] = k){
if(k)--k;
for(int j =sa[rank[i]-1];r[i+k]==r[j+k];++k);
}
}
int main(){
///切记在r[]的最后加上r[n] = 0;(字符串从0~n-1)
SA(r,n+1,M);
return 0;
}
/*
**name:后缀树组
**function:处理字符串的有力神器
**输入参数:字符串(转化成整数类型)
**输出参数:sa[],rank[],height[]
**算法分类:DC3
**复杂度:O(n)
*/
#include<cstdio>
#include<cstring>
#include<algorithm>
#include<iostream>
#define maxn 1000003
#define F(x) ((x)/3+((x)%3==1?0:tb))
#define G(x) ((x)<tb?(x)*3+1:((x)-tb)*3+2)
int wa[maxn],wb[maxn],wv[maxn],ws[maxn];
int r[maxn],sa[maxn];
int c0(int *r,int a,int b){
return r[a]==r[b]&&r[a+1]==r[b+1]&&r[a+2]==r[b+2];
}
int c12(int k,int *r,int a,int b){
if(k==2) return (r[a]<r[b])||(r[a]==r[b]&&c12(1,r,a+1,b+1));
else return (r[a]<r[b])||(r[a]==r[b]&&wv[a+1]<wv[b+1]);
}
void sort(int *r,int *a,int *b,int n,int m){
int i;
for(i=0; i<n; i++) wv[i]=r[a[i]];
for(i=0; i<m; i++) ws[i]=0;
for(i=0; i<n; i++) ws[wv[i]]++;
for(i=1; i<m; i++) ws[i]+=ws[i-1];
for(i=n-1; i>=0; i--) b[--ws[wv[i]]]=a[i];
return;
}
void dc3(int *r,int *sa,int n,int m){
int i,j,*rn=r+n,*san=sa+n,ta=0,tb=(n+1)/3,tbc=0,p;
r[n]=r[n+1]=0;
for(i=0; i<n; i++) if(i%3!=0) wa[tbc++]=i;
sort(r+2,wa,wb,tbc,m);
sort(r+1,wb,wa,tbc,m);
sort(r,wa,wb,tbc,m);
for(p=1,rn[F(wb[0])]=0,i=1; i<tbc; i++)
rn[F(wb[i])]=c0(r,wb[i-1],wb[i])?p-1:p++;
if(p<tbc) dc3(rn,san,tbc,p);
else for(i=0; i<tbc; i++) san[rn[i]]=i;
for(i=0; i<tbc; i++) if(san[i]<tb) wb[ta++]=san[i]*3;
if(n%3==1) wb[ta++]=n-1;
sort(r,wb,wa,ta,m);
for(i=0; i<tbc; i++) wv[wb[i]=G(san[i])]=i;
for(i=0,j=0,p=0; i<ta && j<tbc; p++)
sa[p]=c12(wb[j]%3,r,wa[i],wb[j])?wa[i++]:wb[j++];
for(; i<ta; p++) sa[p]=wa[i++];
for(; j<tbc; p++) sa[p]=wb[j++];
return;
}
int rank[maxn],height[maxn];
void calheight(int *r,int *sa,int n){
int i,j,k=0;
for(i=1; i<=n; i++) rank[sa[i]]=i;
for(i=0; i<n; height[rank[i++]]=k)
for(k?k--:0,j=sa[rank[i]-1]; r[i+k]==r[j+k]; k++);
return;
}
int main(){
int n;
///同上r[n] = 0;
dc3(r,sa,n+1,200002);
calheight(r, sa, n);
return 0;
}
///扩展:
/*
基础应用:(Ctrl+C)
Q1:一个串中两个串的最大公共前缀是多少?
A1:这不就是Height吗?用rmq预处理,再O(1)查询。
Q2:一个串中可重叠的重复最长子串是多长?
A2:就是求任意两个后缀的最长公共前缀,而任意两个后缀的最长公共前缀都是Height
数组里某一段的最小值,那最长的就是Height中的最大值。
Q3:一个串种不可重叠的重复最长子串是多长?
A3:先二分答案,转化成判别式的问题比较好处理。假设当前需要判别长度为k
是否符合要求,只需把排序后的后缀分成若干组,其中每组的后缀之间的Height
值都不小于k,再判断其中有没有不重复的后缀,具体就是看最大的SA值和最小的SA值
相差超不超过k,有一组超过的话k就是合法答案。
A4:一个字符串不相等的子串的个数是多少?
Q4:每个子串一定是某个后缀的前缀,那么原问题等价于求所有后缀之间的
不相同的前缀的个数。而且可以发现每一个后缀Suffix[SA[i]]的贡献是Len - SA[i] + 1,
但是有子串算重复,重复的就是Heigh[i]个与前面相同的前缀,那么减去就可以了。最后,
一个后缀Suffix[SA[i]]的贡献就是Len - SA[k] + 1 - Height[k]。 对于后缀数组更多的应用这
里就不详细阐述,经过思考后每个人都会发现它的一些不同的用途,它的功能也许比你想象中的更强大!
*/