第二遍刷后缀数组的论文题了,记录一下思路
先贴一下几种求sa的模板
n*logn*logn 的快速排序
/*
时间复杂度n*logn*logn
模板的调用
build_sa(s,n) //n为原来字符串的长度
N=n;
*/
int Rank[MAXN+1],tmp[MAXN+1],sa[MAXN+1],l,s[MAXN+1],N;
bool compare_sa(int i,int j){
if(Rank[i]!=Rank[j])
return Rank[i]<Rank[j];
else{
int ri=i+l<=N? Rank[i+l]:-1;
int rj=j+l<=N? Rank[j+l]:-1;
return ri<rj;
}
}
//计算字符串s的后缀数组
void build_sa(int s[],int n){
for(int i=0;i<=n;i++){
sa[i]=i;
Rank[i]=i<n ? s[i]:-1;
}
//利用对长度为k的排序结果对长度为2k的排序
for(l=1;l<=n;l*=2){
sort(sa,sa+n+1,compare_sa);
tmp[sa[0]]=0; //先在tmp中临时存储新计算的Rank,再转存回Rank中
for(int i=1;i<=n;i++)
tmp[sa[i]]=tmp[sa[i-1]]+(compare_sa(sa[i-1],sa[i])?1:0);
for(int i=0;i<=n;i++)
Rank[i]=tmp[i];
}
}
n*logn的基数排序
/*
*倍增算法nlogn
*将待排序数组放在0~n-1中,在最后补一个0
*build(,n+1,);//注意是n+1
*getHeight(,n);
*例如:
*n = 8;
*num[] = { 1, 1, 2, 1, 1, 1, 1, 2, $ };注意num最后一位为0,其他大于0
*Rank[] = { 4, 6, 8, 1, 2, 3, 5, 7, 0 };Rank[0~n-1]为有效值,Rank[n]必定为0无效值
*sa[] = { 8, 3, 4, 5, 0, 6, 1, 7, 2 };sa[1~n]为有效值,sa[0]必定为n是无效值
*height[]= { 0, 0, 3, 2, 3, 1, 2, 0, 1 };height[2~n]为有效值
*/
int s[maxn];
int sa[maxn],t1[maxn],t2[maxn],c[maxn];
//构造字符串S的后缀数组,每个字符值必须为0~m-1
void build_sa(int s[],int n,int m){
int *x=t1,*y=t2;
for(int i=0;i<m;i++) c[i]=0;
for(int i=0;i<n;i++) c[x[i]=s[i]]++;
for(int i=1;i<m;i++) c[i]+=c[i-1];
for(int i=n-1;i>=0;i--) sa[--c[x[i]]]=i;
for(int k=1;k<=n;k<<=1){
int p=0;
for(int i=n-k;i<n;i++) y[p++]=i;
for(int i=0;i<n;i++) if(sa[i]>=k) y[p++]=sa[i]-k;
for(int i=0;i<m;i++) c[i]=0;
for(int i=0;i<n;i++) c[x[y[i]]]++;
for(int i=0;i<m;i++) c[i]+=c[i-1];
for(int i=n-1;i>=0;i--) sa[--c[x[y[i]]]]=y[i];
swap(x,y);
p=1;x[sa[0]]=0;
for(int i=1;i<n;i++)
x[sa[i]]=y[sa[i-1]]==y[sa[i]]&&y[sa[i-1]+k]==y[sa[i]+k] ? p-1:p++;
if(p>=n) break;
m=p;
}
}
O(n)的DC3
/*
dc3(s,sa,n+1,123)的调用
sa数组和s数组应该扩大3倍
*/
int ws[maxn],wa[maxn],wb[maxn],wv[maxn],sa[maxn],f[maxn];
char str[maxn];
int s[maxn];
//dc3
#define F(x) ((x)/3+((x)%3==1?0:tb))
#define G(x) ((x)<tb?(x)*3+1:((x)-tb)*3+2)
int c0(int *r,int a,int b)
{
return r[a]==r[b]&&r[a+1]==r[b+1]&&r[a+2]==r[b+2];
}
int c12(int k,int *r,int a,int b)
{
if(k==2) return r[a]<r[b]||r[a]==r[b]&&c12(1,r,a+1,b+1);
else return r[a]<r[b]||r[a]==r[b]&&wv[a+1]<wv[b+1];
}
void sort(int *r,int *a,int *b,int n,int m)
{
int i;
for(i=0; i<n; i++) wv[i]=r[a[i]];
for(i=0; i<m; i++) ws[i]=0;
for(i=0; i<n; i++) ws[wv[i]]++;
for(i=1; i<m; i++) ws[i]+=ws[i-1];
for(i=n-1; i>=0; i--) b[--ws[wv[i]]]=a[i];
return;
}
void dc3(int *r,int *sa,int n,int m)
{
int i,j,*rn=r+n,*san=sa+n,ta=0,tb=(n+1)/3,tbc=0,p;
r[n]=r[n+1]=0;
for(i=0; i<n; i++) if(i%3!=0) wa[tbc++]=i;
sort(r+2,wa,wb,tbc,m);
sort(r+1,wb,wa,tbc,m);
sort(r,wa,wb,tbc,m);
for(p=1,rn[F(wb[0])]=0,i=1; i<tbc; i++)
rn[F(wb[i])]=c0(r,wb[i-1],wb[i])?p-1:p++;
if(p<tbc) dc3(rn,san,tbc,p);
else for(i=0; i<tbc; i++) san[rn[i]]=i;
for(i=0; i<tbc; i++) if(san[i]<tb) wb[ta++]=san[i]*3;
if(n%3==1) wb[ta++]=n-1;
sort(r,wb,wa,ta,m);
for(i=0; i<tbc; i++) wv[wb[i]=G(san[i])]=i;
for(i=0,j=0,p=0; i<ta && j<tbc; p++)
sa[p]=c12(wb[j]%3,r,wa[i],wb[j])?wa[i++]:wb[j++];
for(; i<ta; p++) sa[p]=wa[i++];
for(; j<tbc; p++) sa[p]=wb[j++];
return;
}
height数组的求解和RMQ的使用
int Rank[maxn],height[maxn];
//getHeight(,n);
void getHeight(int s[],int n){
int k=0;
for(int i=0;i<=n;i++) Rank[sa[i]]=i;
for(int i=0;i<n;i++){
if(k) k--;
int j=sa[Rank[i]-1];
while(s[i+k]==s[j+k]) k++;
height[Rank[i]]=k;
}
}
int dp[maxn][20];
void RMQ_init(int n){
for(int i=1;i<=n;i++) dp[i][0]=height[i];
for(int j=1;(1<<j)<=n;j++)
for(int i=1;i+(1<<j)-1<=n;i++)
dp[i][j]=min(dp[i][j-1],dp[i+(1<<(j-1))][j-1]);
}
//L和R表示在字符串中的位置,rmq表示查询[L,R]之间的最长公共后缀
int rmq(int L,int R){
if(L==R)
return N-R+1;//N定义为strlen(n)
L=Rank[L],R=Rank[R];
if(L>R)
swap(L,R);
L++;
int k=(int)log2(R-L+1);
return min(dp[L][k],dp[R-(1<<k)+1][k]);
}
接下来是对应论文中的一些题目。
重复子串
poj 1743 给定一个字符串,求最长重复子串,这两个子串不能重叠。
传送门:poj 1743 Musical Theme思路:先求出sa和height,然后二分答案,假设答案为k,把连续height大于等于k的放在一组,对于每一组中的判断,只要判断这一组中sa的最小值和最大值之差是否大于等于k(只要有一组成立这个答案便是合法的)
#include<algorithm>
#include<cstdio>
#include<cmath>
using namespace std;
const int maxn=20100;
/*
*倍增算法nlogn
*将待排序数组放在0~n-1中,在最后补一个0
*build(,n+1,);//注意是n+1
*getHeight(,n);
*例如:
*n = 8;
*num[] = { 1, 1, 2, 1, 1, 1, 1, 2, $ };注意num最后一位为0,其他大于0
*Rank[] = { 4, 6, 8, 1, 2, 3, 5, 7, 0 };Rank[0~n-1]为有效值,Rank[n]必定为0无效值
*sa[] = { 8, 3, 4, 5, 0, 6, 1, 7, 2 };sa[1~n]为有效值,sa[0]必定为n是无效值
*height[]= { 0, 0, 3, 2, 3, 1, 2, 0, 1 };height[2~n]为有效值
*/
int s[maxn];
int sa[maxn],t1[maxn],t2[maxn],c[maxn];
//构造字符串S的后缀数组,每个字符值必须为0~m-1
void build_sa(int s[],int n,int m){
int *x=t1,*y=t2;
for(int i=0;i<m;i++) c[i]=0;
for(int i=0;i<n;i++) c[x[i]=s[i]]++;
for(int i=1;i<m;i++) c[i]+=c[i-1];
for(int i=n-1;i>=0;i--) sa[--c[x[i]]]=i;
for(int k=1;k<=n;k<<=1){
int p=0;
for(int i=n-k;i<n;i++) y[p++]=i;
for(int i=0;i<n;i++) if(sa[i]>=k) y[p++]=sa[i]-k;
for(int i=0;i<m;i++) c[i]=0;
for(int i=0;i<n;i++) c[x[y[i]]]++;
for(int i=0;i<m;i++) c[i]+=c[i-1];
for(int i=n-1;i>=0;i--) sa[--c[x[y[i]]]]=y[i];
swap(x,y);
p=1;x[sa[0]]=0;
for(int i=1;i<n;i++)
x[sa[i]]=y[sa[i-1]]==y[sa[i]]&&y[sa[i-1]+k]==y[sa[i]+k] ? p-1:p++;
if(p>=n) break;
m=p;
}
}
int Rank[maxn],height[maxn];
void getHeight(int s[],int n){
int k=0;
for(int i=0;i<=n;i++) Rank[sa[i]]=i;
for(int i=0;i<n;i++){
if(k) k--;
int j=sa[Rank[i]-1];
while(s[i+k]==s[j+k]) k++;
height[Rank[i]]=k;
}
}
const int INF=0x3f3f3f3f;
bool check(int num,int n){
int minv=INF,maxv=0;
for(int i=2;i<=n;i++){
if(height[i]>=num){
minv=min(minv,min(sa[i],sa[i-1]));
maxv=max(maxv,max(sa[i],sa[i-1]));
if(maxv-minv>=num)
return true;
}
else
minv=INF,maxv=0;
}
return false;
}
int a[maxn];
int main(){
int n;
while(scanf("%d",&n)!=EOF){
if(n==0)
break;
for(int i=0;i<n;i++)
scanf("%d",&a[i]);
for(int i=0;i<n-1;i++)
s[i]=a[i+1]-a[i]+100;
n--,s[n]=0;
build_sa(s,n+1,189);
getHeight(s,n);
int low=0,high=n,ans=0;
while(high-low>=0){
int mid=(high+low)>>1;
if(check(mid,n))
low=mid+1,ans=mid+1;
else
high=mid-1;
}
printf("%d\n",ans<5 ? 0 :ans);
}
return 0;
}
- poj 3261 给定一个字符串,求至少出现k次的最长重复子串,这k个子串可以重叠。
传送门:poj 3261 Milk Patterns
思路:二分答案x,然后对height进行分组,判断有没有一组它的合法的height数目>=k-1
#include<algorithm>
#include<cstring>
#include<cmath>
#include<cstdio>
using namespace std;
const int MAXN=41000;
/*
时间复杂度n*logn*logn
模板的调用
build_sa(s,n) //n为原来字符串的长度
N=n;
*/
int Rank[MAXN+1],tmp[MAXN+1],sa[MAXN+1],l,s[MAXN+1],N;
bool compare_sa(int i,int j){
if(Rank[i]!=Rank[j])
return Rank[i]<Rank[j];
else{
int ri=i+l<=N? Rank[i+l]:-1;
int rj=j+l<=N? Rank[j+l]:-1;
return ri<rj;
}
}
//计算字符串s的后缀数组
void build_sa(int s[],int n){
for(int i=0;i<=n;i++){
sa[i]=i;
Rank[i]=i<n ? s[i]:-1;
}
//利用对长度为k的排序结果对长度为2k的排序
for(l=1;l<=n;l*=2){
sort(sa,sa+n+1,compare_sa);
tmp[sa[0]]=0; //先在tmp中临时存储新计算的Rank,再转存回Rank中
for(int i=1;i<=n;i++)
tmp[sa[i]]=tmp[sa[i-1]]+(compare_sa(sa[i-1],sa[i])?1:0);
for(int i=0;i<=n;i++)
Rank[i]=tmp[i];
}
}
int height[MAXN+1];
void getHeight(int s[],int n){
int k=0;
for(int i=0;i<=n;i++) Rank[sa[i]]=i;
for(int i=0;i<n;i++){
if(k) k--;
int j=sa[Rank[i]-1];
while(s[i+k]==s[j+k]) k++;
height[Rank[i]]=k;
}
}
bool check(int num,int k,int n){
int cnt=0;
for(int i=2;i<=n;i++){
if(height[i]>=num){
cnt++;
if(cnt>=k-1)
return true;
}
else
cnt=0;
}
return false;
}
int main(){
int n,time;
while(scanf("%d%d",&n,&time)!=EOF){
for(int i=0;i<n;i++)
scanf("%d",&s[i]),s[i]++;
s[n]=0,N=n;
build_sa(s,n);
getHeight(s,n);
int low=0,high=n,ans=0;
while(high-low>=0){
int mid=low+high>>1;
if(check(mid,time,n))
low=mid+1,ans=mid;
else
high=mid-1;
}
printf("%d\n",ans);
}
return 0;
}
发散思维:给定一个字符串,求至少出现k次的最长重复子串,这k个子串不可重叠。
思路一:二分答案x,然后对于height分组,对于每一组中所有的开头,我们将其排序,贪心取第一个之后,判断是否有一组他能选取的总数大于等于k。
时间复杂度n*logn*logn
思路二:二分答案x,然后处理出每个点之后距离这个点长度为x-1的Hash值,建立一个next表,判断有没有一个next表的长度大于等于k(如果当前点和上一个相同next值之间距离小于x的直接不加人)
时间复杂度:n*logn
子串的个数
spoj 694 给定一个字符串,求不相同的子串的个数。
传送门:spoj 649 Distinct Substrings思路:如果不算重复的,那么总的子串的个数为strlen(s)*(strlen(s)-1)/2,每个子串一定是某个后缀的前缀,那么原问题等价于求所有后缀之间的不相同子串个数。因为每个子串只能被重复计算一次,那么再减掉height[i]的和就是答案
/*
spoj694
给定一个字符串,求不相同的子串的个数。
*/
#include<algorithm>
#include<cstdio>
#include<cmath>
#include<cstring>
using namespace std;
const int maxn=20100;
/*
*倍增算法nlogn
*将待排序数组放在0~n-1中,在最后补一个0
*build(,n+1,);//注意是n+1
*getHeight(,n);
*例如:
*n = 8;
*num[] = { 1, 1, 2, 1, 1, 1, 1, 2, $ };注意num最后一位为0,其他大于0
*Rank[] = { 4, 6, 8, 1, 2, 3, 5, 7, 0 };Rank[0~n-1]为有效值,Rank[n]必定为0无效值
*sa[] = { 8, 3, 4, 5, 0, 6, 1, 7, 2 };sa[1~n]为有效值,sa[0]必定为n是无效值
*height[]= { 0, 0, 3, 2, 3, 1, 2, 0, 1 };height[2~n]为有效值
*/
int s[maxn];
char str[maxn];
int sa[maxn],t1[maxn],t2[maxn],c[maxn];
//构造字符串S的后缀数组,每个字符值必须为0~m-1
void build_sa(int s[],int n,int m){
int *x=t1,*y=t2;
for(int i=0;i<m;i++) c[i]=0;
for(int i=0;i<n;i++) c[x[i]=s[i]]++;
for(int i=1;i<m;i++) c[i]+=c[i-1];
for(int i=n-1;i>=0;i--) sa[--c[x[i]]]=i;
for(int k=1;k<=n;k<<=1){
int p=0;
for(int i=n-k;i<n;i++) y[p++]=i;
for(int i=0;i<n;i++) if(sa[i]>=k) y[p++]=sa[i]-k;
for(int i=0;i<m;i++) c[i]=0;
for(int i=0;i<n;i++) c[x[y[i]]]++;
for(int i=0;i<m;i++) c[i]+=c[i-1];
for(int i=n-1;i>=0;i--) sa[--c[x[y[i]]]]=y[i];
swap(x,y);
p=1;x[sa[0]]=0;
for(int i=1;i<n;i++)
x[sa[i]]=y[sa[i-1]]==y[sa[i]]&&y[sa[i-1]+k]==y[sa[i]+k] ? p-1:p++;
if(p>=n) break;
m=p;
}
}
int Rank[maxn],height[maxn];
void getHeight(int s[],int n){
int k=0;
for(int i=0;i<=n;i++) Rank[sa[i]]=i;
for(int i=0;i<n;i++){
if(k) k--;
int j=sa[Rank[i]-1];
while(s[i+k]==s[j+k]) k++;
height[Rank[i]]=k;
}
}
int main(){
int n,k;
int _;
scanf("%d",&_);
while(_--){
scanf("%s",str);
int n=strlen(str);
int ans=(n+1)*n/2;
for(int i=0;i<=n;i++)
s[i]=str[i];
build_sa(s,n+1,128);
getHeight(s,n);
for(int i=2;i<=n;i++)
ans-=height[i];
printf("%d\n",ans);
}
return 0;
}
Hdu 5769 Substring
题意:给你一个字符串和一个字符,问有多少个不同的子串包括这个字符。思路:先求出总共有多少个不同的,然后比如相邻两个x的位置分别是x1,x2, 减去所有相邻的之间的方案数,再加上相邻之间重复的。
#include <iostream>
#include <string.h>
#include <algorithm>
#include <stdio.h>
using namespace std;
const int MAXN=100100;
int sa[MAXN];
int t1[MAXN],t2[MAXN],c[MAXN];
int Rank[MAXN],height[MAXN];
void build_sa(int s[],int n,int m)
{
int i,j,p,*x=t1,*y=t2;
for(i=0;i<m;i++)c[i]=0;
for(i=0;i<n;i++)c[x[i]=s[i]]++;
for(i=1;i<m;i++)c[i]+=c[i-1];
for(i=n-1;i>=0;i--)sa[--c[x[i]]]=i;
for(j=1;j<=n;j<<=1)
{
p=0;
for(i=n-j;i<n;i++)y[p++]=i;
for(i=0;i<n;i++)if(sa[i]>=j)y[p++]=sa[i]-j;
for(i=0;i<m;i++)c[i]=0;
for(i=0;i<n;i++)c[x[y[i]]]++;
for(i=1;i<m;i++)c[i]+=c[i-1];
for(i=n-1;i>=0;i--)sa[--c[x[y[i]]]]=y[i];
swap(x,y);
p=1;x[sa[0]]=0;
for(i=1;i<n;i++)
x[sa[i]]=y[sa[i-1]]==y[sa[i]] && y[sa[i-1]+j]==y[sa[i]+j]?p-1:p++;
if(p>=n)break;
m=p;
}
}
void getHeight(int s[],int n)
{
int i,j,k=0;
for(i=0;i<=n;i++)Rank[sa[i]]=i;
for(i=0;i<n;i++)
{
if(k)k--;
j=sa[Rank[i]-1];
while(s[i+k]==s[j+k])k++;
height[Rank[i]]=k;
}
}
char str[MAXN],s1[2];
int s[MAXN],e[MAXN];
int main()
{
int T;
scanf("%d",&T);
for(int case1=1;case1<=T;case1++)
{
scanf("%s",s1);
scanf("%s",str);
int n=strlen(str);
for(int i=0;i<=n;i++)s[i]=str[i];
build_sa(s,n+1,128);
getHeight(s,n);
long long ans=1LL*n*(n+1)/2;
int ed=n;//ed刚开始表示总长度
for(int i=n-1;i>=0;i--){
if(str[i]==s1[0]) //i表示有字母s1[0]
ans-=1LL*(ed-i)*(ed-i-1)/2,ed=i;
else
e[i]=ed;
}
if(str[0]!=s1[0])
ans-=1LL*ed*(ed+1)/2;
for(int i=2;i<=n;i++){
ans-=height[i];
if(str[sa[i]]!=s1[0])
ans+=min(height[i],e[sa[i]]-sa[i]);
}
printf("Case #%d: %lld\n",case1,ans);
}
return 0;
}
连续重复子串
poj 2406 给定一个字符串L,已知这个字符串是由某个字符串重复R次得到的,求R的最大值
传送门:poj 2406 Power Strings思路:利用height数组预处理出每个开始的位置和0的最长公共子串same, 如果same==n-i&&same%i==0,更新答案
#include<algorithm>
#include<cstdio>
#include<cmath>
#include<cstring>
using namespace std;
const int maxn=1001000;
int ws[maxn],wa[maxn],wb[maxn],wv[maxn],sa[3*maxn],f[maxn];
char str[maxn];
int s[3*maxn];
//dc3
#define F(x) ((x)/3+((x)%3==1?0:tb))
#define G(x) ((x)<tb?(x)*3+1:((x)-tb)*3+2)
int c0(int *r,int a,int b)
{
return r[a]==r[b]&&r[a+1]==r[b+1]&&r[a+2]==r[b+2];
}
int c12(int k,int *r,int a,int b)
{
if(k==2) return r[a]<r[b]||r[a]==r[b]&&c12(1,r,a+1,b+1);
else return r[a]<r[b]||r[a]==r[b]&&wv[a+1]<wv[b+1];
}
void sort(int *r,int *a,int *b,int n,int m)
{
int i;
for(i=0; i<n; i++) wv[i]=r[a[i]];
for(i=0; i<m; i++) ws[i]=0;
for(i=0; i<n; i++) ws[wv[i]]++;
for(i=1; i<m; i++) ws[i]+=ws[i-1];
for(i=n-1; i>=0; i--) b[--ws[wv[i]]]=a[i];
return;
}
void dc3(int *r,int *sa,int n,int m)
{
int i,j,*rn=r+n,*san=sa+n,ta=0,tb=(n+1)/3,tbc=0,p;
r[n]=r[n+1]=0;
for(i=0; i<n; i++) if(i%3!=0) wa[tbc++]=i;
sort(r+2,wa,wb,tbc,m);
sort(r+1,wb,wa,tbc,m);
sort(r,wa,wb,tbc,m);
for(p=1,rn[F(wb[0])]=0,i=1; i<tbc; i++)
rn[F(wb[i])]=c0(r,wb[i-1],wb[i])?p-1:p++;
if(p<tbc) dc3(rn,san,tbc,p);
else for(i=0; i<tbc; i++) san[rn[i]]=i;
for(i=0; i<tbc; i++) if(san[i]<tb) wb[ta++]=san[i]*3;
if(n%3==1) wb[ta++]=n-1;
sort(r,wb,wa,ta,m);
for(i=0; i<tbc; i++) wv[wb[i]=G(san[i])]=i;
for(i=0,j=0,p=0; i<ta && j<tbc; p++)
sa[p]=c12(wb[j]%3,r,wa[i],wb[j])?wa[i++]:wb[j++];
for(; i<ta; p++) sa[p]=wa[i++];
for(; j<tbc; p++) sa[p]=wb[j++];
return;
}
int Rank[maxn],height[maxn];
void getHeight(int s[],int n){
int k=0;
for(int i=0;i<=n;i++) Rank[sa[i]]=i;
for(int i=0;i<n;i++){
if(k) k--;
int j=sa[Rank[i]-1];
while(s[i+k]==s[j+k]) k++;
height[Rank[i]]=k;
}
}
int minv[maxn];
int main(){
while(scanf("%s",str)!=EOF){
if(str[0]=='.')
break;
int n=strlen(str);
for(int i=0;i<=n;i++)
s[i]=str[i];
dc3(s,sa,n+1,128);
getHeight(s,n);
int now=n;//排在第0位的height
for(int i=Rank[0]+1;i<=n;i++){ //Rank比0开始的大的
now=min(now,height[i]);
minv[sa[i]]=now;
}
now=n;
for(int i=Rank[0]-1;i>=0;i--){
now=min(now,height[i+1]);
minv[sa[i]]=now;
}
int ans=1;
for(int i=1;i<=n;i++){
int same=minv[i];
if(same==n-i&&same%i==0)
ans=max(ans,same/i+1);
}
printf("%d\n",ans);
}
return 0;
}
spoj 687 给定一个字符串,求重复次数最多的连续重复子串。
传送门:spoj 687 Repeats思路:先枚举长度L,下一步是枚举开头,开头只需要枚举L的倍数,为什么呢?
i到i+L-1开头的最长公共前缀要么是小于等于i的前缀,要么是包含了i+L开头的最长公共前缀(这个在接下来会被包含进去)
接下来表示解决上面残留下来的第二个问题
我们不妨先算一下,从s[i*L]开始,除了匹配len/L个循环节之外,还剩余了len%L个,令pre=i-(L-len%L)重新计算一下便可以了。
#include<algorithm>
#include<cstdio>
#include<cmath>
using namespace std;
const int maxn=50100;
/*
*倍增算法nlogn
*将待排序数组放在0~n-1中,在最后补一个0
*build(,n+1,);//注意是n+1
*getHeight(,n);
*例如:
*n = 8;
*num[] = { 1, 1, 2, 1, 1, 1, 1, 2, $ };注意num最后一位为0,其他大于0
*Rank[] = { 4, 6, 8, 1, 2, 3, 5, 7, 0 };Rank[0~n-1]为有效值,Rank[n]必定为0无效值
*sa[] = { 8, 3, 4, 5, 0, 6, 1, 7, 2 };sa[1~n]为有效值,sa[0]必定为n是无效值
*height[]= { 0, 0, 3, 2, 3, 1, 2, 0, 1 };height[2~n]为有效值
*/
int s[maxn];
int sa[maxn],t1[maxn],t2[maxn],c[maxn];
//构造字符串S的后缀数组,每个字符值必须为0~m-1
void build_sa(int s[],int n,int m){
int *x=t1,*y=t2;
for(int i=0;i<m;i++) c[i]=0;
for(int i=0;i<n;i++) c[x[i]=s[i]]++;
for(int i=1;i<m;i++) c[i]+=c[i-1];
for(int i=n-1;i>=0;i--) sa[--c[x[i]]]=i;
for(int k=1;k<=n;k<<=1){
int p=0;
for(int i=n-k;i<n;i++) y[p++]=i;
for(int i=0;i<n;i++) if(sa[i]>=k) y[p++]=sa[i]-k;
for(int i=0;i<m;i++) c[i]=0;
for(int i=0;i<n;i++) c[x[y[i]]]++;
for(int i=0;i<m;i++) c[i]+=c[i-1];
for(int i=n-1;i>=0;i--) sa[--c[x[y[i]]]]=y[i];
swap(x,y);
p=1;x[sa[0]]=0;
for(int i=1;i<n;i++)
x[sa[i]]=y[sa[i-1]]==y[sa[i]]&&y[sa[i-1]+k]==y[sa[i]+k] ? p-1:p++;
if(p>=n) break;
m=p;
}
}
int Rank[maxn],height[maxn];
void getHeight(int s[],int n){
int k=0;
for(int i=0;i<=n;i++) Rank[sa[i]]=i;
for(int i=0;i<n;i++){
if(k) k--;
int j=sa[Rank[i]-1];
while(s[i+k]==s[j+k]) k++;
height[Rank[i]]=k;
}
}
int dp[maxn][20];
void RMQ_init(int n){
for(int i=1;i<=n;i++) dp[i][0]=height[i];
for(int j=1;(1<<j)<=n;j++)
for(int i=1;i+(1<<j)-1<=n;i++)
dp[i][j]=min(dp[i][j-1],dp[i+(1<<(j-1))][j-1]);
}
int rmq(int L,int R){
L=Rank[L],R=Rank[R];
if(L>R)
swap(L,R);
L++;
int k=(int)log2(R-L+1);
return min(dp[L][k],dp[R-(1<<k)+1][k]);
}
int main(){
int _,n;
scanf("%d",&_);
while(_--){
scanf("%d",&n);
char c[2];
for(int i=0;i<n;i++)
scanf("%s",c),s[i]=c[0]-'a'+1;
s[n]=0;
build_sa(s,n+1,10);
getHeight(s,n);
RMQ_init(n);
int maxv=1;
for(int l=1;l<=n/2;l++) //枚举长度
for(int i=0;i<=n;i+=l){
if(i+l>n)
continue;
int len=rmq(i,i+l);
//printf("%d %d %d\n",i,i+l,len);
int tmp=len/l+1,pre=i-(l-len%l);
if((len%l!=0)&&pre>=0)
if(rmq(pre,pre+l)>=l)
tmp++;
maxv=max(maxv,tmp);
}
printf("%d\n",maxv);
}
return 0;
}
两个字符串相关的问题
常见的一种做法是先连接两个字符串,然后求后缀数组和height数组,利用height数组进行求解。
poj 2774 给你两个字符串A,B,求最长公共子串
传送门:poj2774 Long Long Message思路:字符串的任何一个子串都是这个字符串的某个后缀的前缀->由于要计算 A 的后缀和 B 的后缀的最长公共前缀,所以先将第二个字符串写在第一个字符串后面,中间用一个没有出现过的字符隔开,再求这个新的字符串的后缀数组。->当 suffix(sa[i-1])和suffix(sa[i])不是同一个字符串中的两个后缀时,判断答案。
#include<algorithm>
#include<cstdio>
#include<cmath>
#include<cstring>
using namespace std;
const int maxn=200100;
/*
*倍增算法nlogn
*将待排序数组放在0~n-1中,在最后补一个0
*build(,n+1,);//注意是n+1
*getHeight(,n);
*例如:
*n = 8;
*num[] = { 1, 1, 2, 1, 1, 1, 1, 2, $ };注意num最后一位为0,其他大于0
*Rank[] = { 4, 6, 8, 1, 2, 3, 5, 7, 0 };Rank[0~n-1]为有效值,Rank[n]必定为0无效值
*sa[] = { 8, 3, 4, 5, 0, 6, 1, 7, 2 };sa[1~n]为有效值,sa[0]必定为n是无效值
*height[]= { 0, 0, 3, 2, 3, 1, 2, 0, 1 };height[2~n]为有效值
*/
int s[maxn];
int sa[maxn],t1[maxn],t2[maxn],c[maxn];
//构造字符串S的后缀数组,每个字符值必须为0~m-1
void build_sa(int s[],int n,int m){
int *x=t1,*y=t2;
for(int i=0;i<m;i++) c[i]=0;
for(int i=0;i<n;i++) c[x[i]=s[i]]++;
for(int i=1;i<m;i++) c[i]+=c[i-1];
for(int i=n-1;i>=0;i--) sa[--c[x[i]]]=i;
for(int k=1;k<=n;k<<=1){
int p=0;
for(int i=n-k;i<n;i++) y[p++]=i;
for(int i=0;i<n;i++) if(sa[i]>=k) y[p++]=sa[i]-k;
for(int i=0;i<m;i++) c[i]=0;
for(int i=0;i<n;i++) c[x[y[i]]]++;
for(int i=0;i<m;i++) c[i]+=c[i-1];
for(int i=n-1;i>=0;i--) sa[--c[x[y[i]]]]=y[i];
swap(x,y);
p=1;x[sa[0]]=0;
for(int i=1;i<n;i++)
x[sa[i]]=y[sa[i-1]]==y[sa[i]]&&y[sa[i-1]+k]==y[sa[i]+k] ? p-1:p++;
if(p>=n) break;
m=p;
}
}
int Rank[maxn],height[maxn];
void getHeight(int s[],int n){
int k=0;
for(int i=0;i<=n;i++) Rank[sa[i]]=i;
for(int i=0;i<n;i++){
if(k) k--;
int j=sa[Rank[i]-1];
while(s[i+k]==s[j+k]) k++;
height[Rank[i]]=k;
}
}
char str[maxn];
int main(){
while(scanf("%s",str)!=EOF){
int len=strlen(str);
str[len]='$';
scanf("%s",str+len+1);
//printf("%s\n",str);
int n=strlen(str);
for(int i=0;i<=n;i++)
s[i]=str[i];
build_sa(s,n+1,128);
getHeight(s,n);
int ans=0;
for(int i=2;i<=n;i++){
if(1LL*(sa[i]-len)*(sa[i-1]-len)<0)
ans=max(ans,height[i]);
}
printf("%d\n",ans);
}
}
子串的个数
poj 3415 给定两个字符串 A 和 B,求长度不小于 k 的公共子串的个数(可以相同) 。
传送门:poj 3415 Common Substrings思路:基本思路是计算 A 的所有后缀和 B 的所有后缀之间的最长公共前缀的长度,把最长公共前缀长度不小于 k 的部分全部加起来。先将两个字符串连起来,中间用一个没有出现过的字符隔开。按 height 值分组后,接下来的工作便是快速的统计每组中后缀之间的最长公共前缀之和。扫描一遍,每遇到一个 B 的后缀就统计与前面的 A 的后缀能产生多少个长度不小于 k 的公共子串, 这里 A 的后缀需要用一个单调的栈来高效的维护。然后对 A 也这样做一次。
#include<algorithm>
#include<cstdio>
#include<cmath>
#include<cstring>
using namespace std;
const int maxn=401000;
/*
*倍增算法nlogn
*将待排序数组放在0~n-1中,在最后补一个0
*build(,n+1,);//注意是n+1
*getHeight(,n);
*例如:
*n = 8;
*num[] = { 1, 1, 2, 1, 1, 1, 1, 2, $ };注意num最后一位为0,其他大于0
*Rank[] = { 4, 6, 8, 1, 2, 3, 5, 7, 0 };Rank[0~n-1]为有效值,Rank[n]必定为0无效值
*sa[] = { 8, 3, 4, 5, 0, 6, 1, 7, 2 };sa[1~n]为有效值,sa[0]必定为n是无效值
*height[]= { 0, 0, 3, 2, 3, 1, 2, 0, 1 };height[2~n]为有效值
*/
int s[maxn];
int sa[maxn],t1[maxn],t2[maxn],c[maxn];
//构造字符串S的后缀数组,每个字符值必须为0~m-1
void build_sa(int s[],int n,int m){
int *x=t1,*y=t2;
for(int i=0;i<m;i++) c[i]=0;
for(int i=0;i<n;i++) c[x[i]=s[i]]++;
for(int i=1;i<m;i++) c[i]+=c[i-1];
for(int i=n-1;i>=0;i--) sa[--c[x[i]]]=i;
for(int k=1;k<=n;k<<=1){
int p=0;
for(int i=n-k;i<n;i++) y[p++]=i;
for(int i=0;i<n;i++) if(sa[i]>=k) y[p++]=sa[i]-k;
for(int i=0;i<m;i++) c[i]=0;
for(int i=0;i<n;i++) c[x[y[i]]]++;
for(int i=0;i<m;i++) c[i]+=c[i-1];
for(int i=n-1;i>=0;i--) sa[--c[x[y[i]]]]=y[i];
swap(x,y);
p=1;x[sa[0]]=0;
for(int i=1;i<n;i++)
x[sa[i]]=y[sa[i-1]]==y[sa[i]]&&y[sa[i-1]+k]==y[sa[i]+k] ? p-1:p++;
if(p>=n) break;
m=p;
}
}
int Rank[maxn],height[maxn];
void getHeight(int s[],int n){
int k=0;
for(int i=0;i<=n;i++) Rank[sa[i]]=i;
for(int i=0;i<n;i++){
if(k) k--;
int j=sa[Rank[i]-1];
while(s[i+k]==s[j+k]) k++;
height[Rank[i]]=k;
}
}
int r[maxn];
char str[maxn];
long long Count_pre[maxn],Count_suf[maxn];
long long dp_pre[maxn],dp_suf[maxn];
int main(){
int k;
while(scanf("%d",&k)!=EOF){
if(k==0)
break;
scanf("%s",str);
int len=strlen(str);
memset(Count_pre,0,sizeof(Count_pre));
memset(Count_suf,0,sizeof(Count_suf));
memset(dp_pre,0,sizeof(dp_pre));
memset(dp_suf,0,sizeof(dp_suf));
str[len]='$';
scanf("%s",str+len+1);
int n=strlen(str);
for(int i=0;i<=n;i++)
s[i]=str[i];
build_sa(s,n+1,150);
getHeight(s,n);
r[n]=n; //找到第一个比它小的
for(int i=n-1;i>=0;i--){
int tmp=i;
while(tmp!=n&&height[i]<=height[tmp+1])
tmp=r[tmp+1];
r[i]=tmp;
}
// for(int i=0;i<=n;i++)
// printf("height[%d] %d sa[%d] %d r[%d] %d\n",i,height[i],i,sa[i],i,r[i]);
long long ans=0;
for(int i=n;i>=1;i--){
if(sa[i]>len)
Count_suf[i]=Count_suf[i+1]+1,dp_suf[i]=dp_suf[r[i]+1]+1LL*(height[i]-k+1)*(Count_suf[i]-Count_suf[r[i]+1]);
else if(sa[i]<len){
Count_suf[i]=Count_suf[i+1];
ans+=dp_suf[i+1];
if(height[i]>=k)
dp_suf[i]=dp_suf[r[i]+1]+1LL*(height[i]-k+1)*(Count_suf[i]-Count_suf[r[i]+1]);
}
if(height[i]<k)
dp_suf[i]=0,Count_suf[i]=0;
}
//printf("%lld\n",ans);
for(int i=n;i>=1;i--){
if(sa[i]<len)
Count_pre[i]=Count_pre[i+1]+1,dp_pre[i]=dp_pre[r[i]+1]+1LL*(height[i]-k+1)*(Count_pre[i]-Count_pre[r[i]+1]);
else if(sa[i]>len){
Count_pre[i]=Count_pre[i+1];
ans+=dp_pre[i+1];
if(height[i]>=k)
dp_pre[i]=dp_pre[r[i]+1]+1LL*(height[i]-k+1)*(Count_pre[i]-Count_pre[r[i]+1]);
}
if(height[i]<k)
dp_pre[i]=0,Count_pre[i]=0;
}
printf("%I64d\n",ans);
}
return 0;
}
多个字符串的问题
poj 3294 出现在不小于k个字符串中的最长子串
传送门:poj 3294 Life Forms思路:先将这些字符串用未出现的字符相连,然后利用二分答案。
spoj 220 给定 n 个字符串,求在每个字符串中至少出现两次且不重叠的最长子串。
传送门:spoj 220 Relevant Phrases of Annihilation
思路:先将 n 个字符串连起来,中间用不相同的且没有
出现在字符串中的字符隔开,求后缀数组。然后二分答案,再将后缀分组。判断的时候,要看是否有一组后缀在每个原来的字符串中至少出现两次,并且在每个原来的字符串中,后缀的起始位置的最大值与最小值之差是否不小于当前答案(判断能否做到不重叠,如果题目中没有不重叠的要求,那么不用做此判断) 。poj 1226 给定 n 个字符串,求出现或反转后出现在每个字符串中的最长子串。
传送门:poj 1226 Substrings思路:只需要先将每个字符串都反过来写一遍,中间用一个互不相同的
且没有出现在字符串中的字符隔开,再将 n 个字符串全部连起来,中间也是用一个互不相同的且没有出现在字符串中的字符隔开,求后缀数组。然后二分答案,再将后缀分组。判断的时候,要看是否有一组后缀在每个原来的字符串或反转后的字符串中出现。这个做法的时间复杂度为 O(nlogn)。