题意:输入n个DNA序列,你的任务是求出一个长度最大的字符串,使得它在超过一半的DNA序列中连续出现。如果有多解,按照字典序从小到大输出所有解。
【输入格式】
输入包含多组数据。每组数据第一行为DNA串的个数n(1<=n<=100),以下n行每行为一个由不超过1000个小写字母组成的非空字符串。输入结束标志为n=0。
【输出格式】
对于每组数据,输出所有解,按照字典序从小到大排列。如果无解,输出一行”?”(不包含引号)
这道题是大白书上面的后缀数组的一道例题,具体思路看大白书。
代码如下:
#include <iostream>
#include<stdio.h>
#include<string.h>
#define maxn 1000005
using namespace std;
char s[maxn];
int ss[maxn];
int sa[maxn],t[maxn],t2[maxn],c[maxn],n;
bool vis[105];
int ans[maxn],len[105];
void build_sa(int m)
{
int i,*x=t,*y=t2;
for( i=0; i<m; i++)c[i]=0;
for( i=0; i<n; i++)c[x[i]=ss[i]]++;
for( i=1; i<m; i++)c[i]+=c[i-1];
for( i=n-1; i>=0; i--)sa[--c[x[i]]]=i;
for(int k=1; k<=n; k<<=1)
{
int p=0;
for( i=n-k; i<n; i++)y[p++]=i;
for(i=0; i<n; i++)if(sa[i]>=k)y[p++]=sa[i]-k;
for(i=0; i<m; i++)c[i]=0;
for(i=0; i<n; i++)c[x[y[i]]]++;
for(i=0; i<m; i++)c[i]+=c[i-1];
for(i=n-1; i>=0; i--)sa[--c[x[y[i]]]]=y[i];
swap(x,y);
p=1;
x[sa[0]]=0;
for(int i=1; i<n; i++)
{
x[sa[i]]=y[sa[i-1]]==y[sa[i]]&&y[sa[i-1]+k]==y[sa[i]+k]?p-1:p++;
}
if(p>=n)break;
m=p;
}
}
int Rank[maxn],height[maxn];
void getheight(int num)
{
int i,j,k=0;
for(i=0; i<num; i++)Rank[sa[i]]=i;
for(i=0; i<num; i++)
{
if(k)k--;
else
k=0;
j=sa[Rank[i]-1];
while(ss[i+k]==ss[j+k])k++;
height[Rank[i]]=k;
}
}
int check(int mid,int n,int t)
{
memset(vis,false,sizeof(vis));
int temp=0,ssize=0;
for(int i=1; i<=n; i++)
{
if(height[i]>=mid)//按照大白书上所讲的,当height[i]<mid时开启新段
{
for(int j=1; j<=t; j++)
{
//检查相邻两个后缀是否有相同前缀并且这个前缀属于j串
if(sa[i]>len[j-1]&&sa[i]<len[j]&&!vis[j])
{
temp++;
vis[j]=true;
}
if(sa[i-1]>len[j-1]&&sa[i-1]<len[j]&&!vis[j])
{
temp++;
vis[j]=true;
}
}
}
else
{
if(temp>t/2)ans[++ssize]=sa[i-1];
temp=0;
memset(vis,false,sizeof(vis));
}
}
if(temp>t/2) ans[++ssize] = sa[n];
if(ssize)
{
ans[0]=ssize;
return 1;
}
return 0;
}
int main()
{
int t;
int flag=0;
while(scanf("%d",&t),t)
{
n=0;
int ssize=0;
for(int i=1; i<=t; i++)
{
scanf("%s",s+n);
for(; s[n]!='\0'; n++)
ss[n]=s[n];
ss[n]='#'+i;
len[++ssize]=n;
n++;
}
int l=1,r=n,mid;
build_sa(255);
getheight(n);
while(l<=r)
{
mid=(l+r)/2;
if(check(mid,n,t))
l=mid+1;
else
r=mid-1;
}
if(flag)
printf("\n");
flag=1;
if(l==1)
printf("?\n");
else
{
for(int i=1; i<=ans[0]; i++)//ans[0]记录有多少个答案
{
for(int j=ans[i]; j<ans[i]+l-1; j++)
printf("%c",ss[j]);
printf("\n");
}
}
}
return 0;
}