hdu5008 Boring String Problem 后缀数组+二分

题意:给定一个字符串求第k小子串。

思路:首先我们知道任何一个字符串的子串一定是其某个后缀的前缀,那么利用后缀数组可先求得sa值。设字符串长度为len,对于

sa[i]为首的后缀,那么会产生len - sa[ i ] - height[ i ]个新的子串。而且会发现以sa[ i - 1 ]为首的后缀所形成新的子字符串一定比sa[ i ]

为首的后缀所形成的新的子字符串字典序小。求完sa值后,我们用sum[ i ]数组记录sa[1]到sa[ i ]总共形成的不同子串。然后我们在

sum数组中二分找到第k小子串是以哪个sa[ j ]为首的后缀形成的,找到相应的位置。下面的问题是如何保证找到的相应位置是最小

的。首先我们已经知道了第k小的字符串是啥,并且知道了长度,不妨设为len1。那么假设知道是以sa[ i ]为首的后缀形成的,那么接

下来我们看i之后的j,如果lcp(i,j)>=len1那么说明 以sa[ j ]为首的后缀也能形成所要找的子串,最终取所有满足的j的sa [ j ]中的最小值

和sa[ i ]再取一个最小值就是所要找的最小位置。那么我们可以用RMQ维护一个区间里sa值的最小值即可。详见代码:

(不得不吐嘈一下:暴力找最小位置比RMQ还快。。。)

RMQ版:800+ms

// file name: hdu5008.cpp //
// author: kereo //
// create time:  2014年09月16日 星期二 08时25分29秒 //
//***********************************//
#include<iostream>
#include<cstdio>
#include<cstring>
#include<queue>
#include<set>
#include<map>
#include<vector>
#include<stack>
#include<cmath>
#include<string>
#include<algorithm>
using namespace std;
typedef long long ll;
const int MAXN=100000+100;
const int inf=0x3fffffff;
const int mod=1000000000+7;
#define L(x) (x<<1)
#define R(x) (x<<1|1)
int n,Q;
char str[MAXN];
ll sum[MAXN];
int sa[MAXN],height[MAXN],rank[MAXN],c[MAXN],t1[MAXN],t2[MAXN];
int dp[MAXN][20],h[MAXN][20];
int cmp(int *r,int a,int b,int l){
	return r[a] == r[b] && r[a+l] == r[b+l];
}
void build_sa(int m){
	int i,k,p=0;
	int *x=t1,*y=t2;
	for(i=0;i<m;i++) c[i]=0;
	for(i=0;i<n;i++) c[x[i]=str[i]]++;
	for(i=1;i<m;i++) c[i]+=c[i-1];
	for(i=n-1;i>=0;i--) sa[--c[x[i]]]=i;
	for(k=1;p<n;k<<=1,m=p){
		for(p=0,i=n-k;i<n;i++) y[p++]=i;
		for(i=0;i<n;i++) if(sa[i]>=k) y[p++]=sa[i]-k;
		for(i=0;i<m;i++) c[i]=0;
		for(i=0;i<n;i++) c[x[y[i]]]++;
		for(i=1;i<m;i++) c[i]+=c[i-1];
		for(i=n-1;i>=0;i--) sa[--c[x[y[i]]]]=y[i];
		swap(x,y);
		for(p=1,x[sa[0]]=0,i=1;i<n;i++)
			x[sa[i]]=cmp(y,sa[i-1],sa[i],k) ? p-1 : p++;
	}
}
void calheight(int n){
	int k=0;
	for(int i=0;i<=n;i++) rank[sa[i]]=i;
	for(int i=0;i<n;i++){
		if(k) k--;
		int j=sa[rank[i]-1];
		while(str[i+k] == str[j+k]) k++;
		height[rank[i]]=k;
	}
}
void RMQ_init(int n){
	for(int i=1;i<=n;i++) dp[i][0]=sa[i];
	for(int j=1;(1<<j)<=n;j++)
		for(int i=1;i+(1<<j)-1<=n;i++)
			dp[i][j]=min(dp[i][j-1],dp[i+(1<<(j-1))][j-1]);
	for(int i=1;i<=n;i++) h[i][0]=height[i];
	for(int j=1;(1<<j)<=n;j++)
		for(int i=1;i+(1<<j)-1<=n;i++)
			h[i][j]=min(h[i][j-1],h[i+(1<<(j-1))][j-1]);
}
int lcp(int l,int r){
	int k=0;
	if(l == r) return n-sa[l];
	l++;
	while((1<<(k+1))<=r-l+1) k++;
	return min(h[l][k],h[r-(1<<k)+1][k]);
}
int query(int l,int r){
	int k=0;
	while((1<<(k+1))<=r-l+1) k++;
	return min(dp[l][k],dp[r-(1<<k)+1][k]);
}
int main()
{
	while(~scanf("%s",str)){
		int len=strlen(str);
	   	n=len;str[n++]=0;
		scanf("%d",&Q);
		build_sa(150); calheight(n-1); RMQ_init(n-1);
		sum[0]=0;
		for(int i=1;i<n;i++)
			sum[i]=sum[i-1]+len-sa[i]-height[i];
		ll max_size=sum[n-1];
		ll L=0,R=0;
		while(Q--){
			ll x;
			scanf("%I64d",&x);
			ll k=(L^R^x)+1;
			if(k>max_size){
				L=R=0;
				printf("0 0\n");
				continue;
			}
			int pos=lower_bound(sum+1,sum+n,k)-sum; //找第一个大于等于k的区间
			k-=sum[pos-1];
			int len=height[pos]+k;
			int l=pos,r=n-1,ans=pos;
			while(l<=r){
				int mid=(l+r)>>1;
				if(lcp(pos,mid)>=len){
					ans=mid; l=mid+1;
				}
				else 
					r=mid-1;
			}
			L=query(pos,ans)+1; R=L+len-1;
			printf("%I64d %I64d\n",L,R);
		}
	}
	return 0;
}

暴力版:300+ms(真是印证了简单粗暴。。。)

// file name: hdu5008.cpp //
// author: kereo //
// create time:  2014年09月16日 星期二 08时25分29秒 //
//***********************************//
#include<iostream>
#include<cstdio>
#include<cstring>
#include<queue>
#include<set>
#include<map>
#include<vector>
#include<stack>
#include<cmath>
#include<string>
#include<algorithm>
using namespace std;
typedef long long ll;
const int MAXN=100000+100;
const int inf=0x3fffffff;
const int mod=1000000000+7;
#define L(x) (x<<1)
#define R(x) (x<<1|1)
int n,Q;
char str[MAXN];
ll sum[MAXN];
int sa[MAXN],height[MAXN],rank[MAXN],c[MAXN],t1[MAXN],t2[MAXN];
int cmp(int *r,int a,int b,int l){
	return r[a] == r[b] && r[a+l] == r[b+l];
}
void build_sa(int m){
	int i,k,p=0;
	int *x=t1,*y=t2;
	for(i=0;i<m;i++) c[i]=0;
	for(i=0;i<n;i++) c[x[i]=str[i]]++;
	for(i=1;i<m;i++) c[i]+=c[i-1];
	for(i=n-1;i>=0;i--) sa[--c[x[i]]]=i;
	for(k=1;p<n;k<<=1,m=p){
		for(p=0,i=n-k;i<n;i++) y[p++]=i;
		for(i=0;i<n;i++) if(sa[i]>=k) y[p++]=sa[i]-k;
		for(i=0;i<m;i++) c[i]=0;
		for(i=0;i<n;i++) c[x[y[i]]]++;
		for(i=1;i<m;i++) c[i]+=c[i-1];
		for(i=n-1;i>=0;i--) sa[--c[x[y[i]]]]=y[i];
		swap(x,y);
		for(p=1,x[sa[0]]=0,i=1;i<n;i++)
			x[sa[i]]=cmp(y,sa[i-1],sa[i],k) ? p-1 : p++;
	}
}
void calheight(int n){
	int k=0;
	for(int i=0;i<=n;i++) rank[sa[i]]=i;
	for(int i=0;i<n;i++){
		if(k) k--;
		int j=sa[rank[i]-1];
		while(str[i+k] == str[j+k]) k++;
		height[rank[i]]=k;
	}
}
int main()
{
	while(~scanf("%s",str)){
		int len=strlen(str);
	   	n=len;str[n++]=0;
		scanf("%d",&Q);
		build_sa(150); calheight(n-1); //<F8>RMQ_init(n-1);
		sum[0]=0;
		for(int i=1;i<n;i++)
			sum[i]=sum[i-1]+len-sa[i]-height[i];
		ll max_size=sum[n-1];
		ll L=0,R=0;
		while(Q--){
			ll x;
			scanf("%I64d",&x);
			ll k=(L^R^x)+1;
			if(k>max_size){
				L=R=0;
				printf("0 0\n");
				continue;
			}
			int pos=lower_bound(sum+1,sum+n,k)-sum; //找第一个大于等于k的区间
			L=sa[pos],R=n-1-(sum[pos]-k+1);
			int Len=R-L+1;
			while(pos+1<n && height[pos+1]>=Len){
				pos++;
				ll LL=sa[pos],RR=sa[pos]+Len-1;
				L=min(L,LL);
				R=min(R,RR);
			}
			L++,R++;
			printf("%I64d %I64d\n",L,R);
		}
	}
	return 0;
}


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值