poj 3294 ( 后缀数组 不小于 k 个字符串中的最长子串 )

题意 : 给定n个字符串 , 要求找出所有在大于n/2个字符串都出现的子串

思路 : 首先将n个字符串通过没有出现过的字符隔开(注意这些字符应该各不相同),计算heigth数组,二分子串的长度,根据这个长度给height数组分组,判断每组内是否有来自至少 n/2 + 1 个字符串的子串。


#include <stdio.h>  
#include <string.h>
#include <string>
#include <vector>
#include <iostream>
#include <algorithm>  
using namespace std;  

#define maxn 111005  
int wa[maxn],wb[maxn],wv[maxn],wt[maxn];  

int cmp(int *r,int a,int b,int l)  
{return r[a]==r[b]&&r[a+l]==r[b+l];}  

void da(int *r,int *sa,int n,int m){  
	int i,j,p,*x=wa,*y=wb,*t;  
	for(i=0;i<m;i++) wt[i]=0;  
	for(i=0;i<n;i++) wt[x[i]=r[i]]++;  
	for(i=1;i<m;i++) wt[i]+=wt[i-1];  
	for(i=n-1;i>=0;i--) sa[--wt[x[i]]]=i;  
	for(j=1,p=1;p<n;j*=2,m=p){  
		for(p=0,i=n-j;i<n;i++) y[p++]=i;  
		for(i=0;i<n;i++) if(sa[i]>=j) y[p++]=sa[i]-j;  
		for(i=0;i<n;i++) wv[i]=x[y[i]];  
		for(i=0;i<m;i++) wt[i]=0;  
		for(i=0;i<n;i++) wt[wv[i]]++;  
		for(i=1;i<m;i++) wt[i]+=wt[i-1];  
		for(i=n-1;i>=0;i--) sa[--wt[wv[i]]]=y[i];  
		for(t=x,x=y,y=t,p=1,x[sa[0]]=0,i=1;i<n;i++)  
			x[sa[i]]=cmp(y,sa[i-1],sa[i],j)?p-1:p++;  
	}  
}  

int Rank[maxn],height[maxn];  

void calheight(int *r,int *sa,int n){  
	int i , j , k = 0 ;  
	for( i=1 ; i<=n ; i++ ) Rank[sa[i]]=i;  
	for(i=0;i<n;i++) {  
		if(k)k--;  
		int j = sa[Rank[i]-1];  
		while(r[i+k]==r[j+k]) k++ ;  
		height[Rank[i]] = k ;  
	}     
	return;  
}  

int r[maxn] , sa[maxn] ;  
char str[maxn] , str2[maxn] ;
// in[i] 表示第 i 个字符属于第几个字符串
int in[maxn] ;
// have 用于辅助计算每组内属于不同字符串的个数
bool have[105] ;
int n ;

bool check( int k , int len ) {
	memset( have , false , sizeof(have) ) ;
	int cnt = 1 ;
	if( in[sa[1]] ) have[in[sa[1]]] = true ;
	for( int i = 2 ; i <= len ; i ++ ) {
		if( height[i] < k ) {
			if( cnt > n/2 ) return true ;
			memset( have , false , sizeof(have) ) ;
			cnt = 0 ;
		}
		if( in[sa[i]] && have[in[sa[i]]] == false ) {
			cnt ++ ;
			have[in[sa[i]]] = true ;
		} 
	}
	return cnt > n/2;
}

vector<string> ans ;

int main(){
	int casn = 0 ;
	while( scanf( "%d" , &n ) != EOF ) {
		if( n == 0 ) break;
		if( casn ++ ) puts("");
		memset( in , 0 , sizeof(in) ) ;
		str[0] = 0 ;
		int k = 0 ;
		int Min = 999999999 ;
		for( int i = 1 ; i <= n ; i ++ ) {
			scanf( "%s" , str2 ) ;
			int len = strlen( str2 ) ;
			Min = min( Min , len ) ;
			for( int j = 0 ; j < len ; j ++ ) {
				r[k] = str2[j] ;
				str[k] = str2[j] ;
				in[k++] = i ;
			}
			// 注意不能直接 str[k] = 'z' + i ; 否则会溢出char范围导致RE
			r[k] = 'z' + i ;
			str[k++] = '$' ;
		}
		r[k] = 0 ;
		str[k] = 0 ;
		//for( int i = 0 ; i < k ; i ++ ) r[i] = str[i] ; r[k] = 0 ;
		da( r , sa , k + 1 , 300 ) ;
		calheight( r , sa , k ) ;
		int l = 0 , r = Min , m ;
		while( l < r ) {
			m = ( l + r + 1 ) >> 1 ;
			if( check( m , k ) ) {
				l = m ;
			}else{
				r = m - 1 ;
			}
		}
		if( l == 0 ) {
			puts( "?" ) ;
		}else{
			ans.clear() ;
			memset( have , false , sizeof(have) ) ;
			int cnt = 1 ;
			if( in[sa[1]] ) have[in[sa[1]]] = true ;
			for( int i = 2 ; i <= k ; i ++ ) {
				if( height[i] < l ) {
					if( cnt > n/2 ) {
						ans.push_back( string( str + sa[i-1] , str + sa[i-1] + l ) ) ;
					}
					memset( have , false , sizeof(have) ) ;
					cnt = 0 ;
				}
				if( in[sa[i]] && have[in[sa[i]]] == false ) {
					cnt ++ ;
					have[in[sa[i]]] = true ;
				} 
			}
			if( cnt > n / 2 ) {
				ans.push_back( string( str + sa[k] , str + sa[k] + l ) ) ;
			}
			sort( ans.begin() , ans.end() ) ;
			for( int i = 0 ; i < ans.size() ; i ++ ) {
				cout << ans[i] << endl ;
			}
		}
	}	
	return 0 ;
}


  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值