POJ3415 Common Substrings【后缀数组(长度不小于 k 的公共子串的个数)】

Master.Yi

于 2020-01-17 22:38:38 发布

阅读量145

点赞数 1

分类专栏：后缀数组

本文链接：https://blog.csdn.net/C20181220_xiang_m_y/article/details/104025605

版权

后缀数组专栏收录该内容

12 篇文章 0 订阅

订阅专栏

题目描述：

RT，给定两个字符串 A 和 B，求长度不小于 k 的公共子串的个数（可以相同）。
样例 :
A=“xx”，B=“xx”，k=1，长度不小于 k 的公共子串的个数是 5。

题目分析：

基本思路是计算 A 的所有后缀和 B 的所有后缀之间的最长公共前缀的长度，把最长公共前缀长度不小于 k 的部分全部加起来。先将两个字符串连起来，中间用一个没有出现过的字符隔开。按 height 值分组后，接下来的工作便是快速的统计每组中后缀之间的最长公共前缀之和。扫描一遍，每遇到一个 B 的后缀就统计与前面的 A 的后缀能产生多少个长度不小于 k 的公共子串，这里 A 的后缀需要用一个单调的栈来高效的维护。然后对 A 也这样做一次。

具体实现时存一个 ret 表示一个栈中A的 h*个数之和，每次用 $h [i]$ 去更新栈中的h，注意插入A时要保证它的h为极大值，因为此时A的贡献是还没有确定的，需要后面的一个后缀来确定。

Code：

#include<cstdio>
#include<cstring>
#include<algorithm>
#define maxn 200005
using namespace std;
int b[maxn],ary[4][maxn],h[maxn];
int *sa=ary[0],*rk=ary[1],*nsa=ary[2],*nrk=ary[3];
void build_sa(int n,int m,int *a){
	memset(b,0,(m+1)<<2),a[n+1]=rk[n+1]=0;
	for(int i=1;i<=n;i++) b[a[i]]++;
	for(int i=1;i<=m;i++) b[i]+=b[i-1];
	for(int i=1;i<=n;i++) sa[b[a[i]]--]=i;
	for(int i=1;i<=n;i++) rk[sa[i]]=rk[sa[i-1]]+(a[sa[i-1]]!=a[sa[i]]);
	for(int k=1;rk[sa[n]]<n;k<<=1){
		for(int i=1;i<=n;i++) b[rk[sa[i]]]=i;
		for(int i=n;i>=1;i--) if(sa[i]>k) nsa[b[rk[sa[i]-k]]--]=sa[i]-k;
		for(int i=n-k+1;i<=n;i++) nsa[b[rk[i]]--]=i;
		for(int i=1;i<=n;i++) nrk[nsa[i]]=nrk[nsa[i-1]]+(rk[nsa[i-1]]!=rk[nsa[i]]||rk[nsa[i-1]+k]!=rk[nsa[i]+k]);
		swap(sa,nsa),swap(rk,nrk);	
	}
	for(int i=1,k=0,j;i<=n;h[rk[i]]=k,i++)
		for(k&&(k--),j=sa[rk[i]-1];a[i+k]==a[j+k];k++);
}
int n,m,k,a[maxn],top;
char s0[maxn],s1[maxn];
long long ans,ret;
struct node{int x,s;}S[maxn];
void solve(bool t){
	for(int i=1;i<=n+m+1;i++)
		if(h[i]<k) (sa[i]<=n)==t?(S[top=1]=(node){maxn,1},ret=maxn-k+1):(ret=top=0);
		else{
			int s=0;
			for(;top>=1&&S[top].x>=h[i];top--) ret-=1ll*(S[top].x-k+1)*S[top].s,s+=S[top].s;
			if(s) ret+=1ll*(h[i]-k+1)*s,S[++top]=(node){h[i],s};
			if((sa[i]<=n)==t) ret+=maxn-k+1,S[++top]=(node){maxn,1};
			else ans+=ret;
		}
}
int main()
{
	while(scanf("%d",&k),k){
		scanf("%s%s",s0+1,s1+1);
		n=strlen(s0+1),m=strlen(s1+1),a[n+1]=1;
		for(int i=1;i<=n;i++) a[i]=s0[i];
		for(int i=1;i<=m;i++) a[n+1+i]=s1[i];
		build_sa(n+m+1,255,a);
		ans=0,solve(0),solve(1);
		printf("%lld\n",ans);
	}
}

Upd：也可以单调栈求出每个 $h[i](\ge k)$ 作为最小值的区间，然后用 $i$ 左边A的个数乘上 $i$ 右边B的个数，加上 $i$ 左边B的个数乘上 $i$ 右边A的个数。

Master.Yi

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
POJ3415 Common Substrings【后缀数组(长度不小于 k 的公共子串的个数)】

题目描述：RT，给定两个字符串 A 和 B，求长度不小于 k 的公共子串的个数（可以相同）。样例 :A=“xx”，B=“xx”，k=1，长度不小于 k 的公共子串的个数是 5。题目分析：基本思路是计算 A 的所有后缀和 B 的所有后缀之间的最长公共前缀的长度，把最长公共前缀长度不小于 k 的部分全部加起来。先将两个字符串连起来，中间用一个没有出现过的字符隔开。按 height 值分组后，...
复制链接

扫一扫