UVA - 11107

最新推荐文章于 2018-09-15 15:10:02 发布

请叫我西木同学

最新推荐文章于 2018-09-15 15:10:02 发布

阅读量227

点赞数

分类专栏：后缀数组

本文链接：https://blog.csdn.net/qq965194745/article/details/78194576

版权

后缀数组专栏收录该内容

2 篇文章 0 订阅

订阅专栏

题目描述

输入n个DNA序列，任务是求出一个长度最大的字符串，使得它在超过一半的DNA序列中连续出现。如果有多解，按字典序从小到大输出所有解。

方法

这是一道很经典的题目，先用不同的分割字符把所有的字符串（原串）拼起来，然后求新串的后缀数组和height数组，然后二分答案，每次只需要判断是否有一个长度为p的串在超过一半的串中连续出现，判断方法是扫描一遍height数组，把他分成若干段，每当height[i]小于p时开辟一个新段，则每一段的最初p个字符均相同。
这里采用不同的字符拼起来的目的是防止height数组的大小跨越两个字符串这种非法的情况出现。
后缀数组的模板采用的是kuangbin的

#include<bits/stdc++.h>
#define rank rrr
using namespace std;
/*
*suffix array
*倍增算法 O(n*logn)
*待排序数组长度为n,放在0~n-1中，在最后面补一个0
*da(str ,n+1,sa,rank,height, , );//注意是n+1;
*例如：
*n = 8;
*num[] = { 1, 1, 2, 1, 1, 1, 1, 2, $ };注意num最后一位为0，其他大于0
*rank[] = { 4, 6, 8, 1, 2, 3, 5, 7, 0 };rank[0~n-1]为有效值，rank[n]必定为0无效
值
*sa[] = { 8, 3, 4, 5, 0, 6, 1, 7, 2 };sa[1~n]为有效值，sa[0]必定为n是无效值
*height[]= { 0, 0, 3, 2, 3, 1, 2, 0, 1 };height[2~n]为有效值
*
*/
const int MAXN=140080;
int t1[MAXN],t2[MAXN],c[MAXN];//求SA数组需要的中间变量，不需要赋值
//待排序的字符串放在s数组中，从s[0]到s[n-1],长度为n,且最大值小于m,
//除s[n-1]外的所有s[i]都大于0，r[n-1]=0
//函数结束以后结果放在sa数组中
bool cmp(int *r,int a,int b,int l)
{
    return r[a] == r[b] && r[a+l] == r[b+l];
}
void da(int str[],int sa[],int rank[],int height[],int n,int m)
{
    n++;
    int i, j, p, *x = t1, *y = t2;
//第一轮基数排序，如果s的最大值很大，可改为快速排序
    for(i = 0; i < m; i++)c[i] = 0;
    for(i = 0; i < n; i++)c[x[i] = str[i]]++;
    for(i = 1; i < m; i++)c[i] += c[i-1];
    for(i = n-1; i >= 0; i--)sa[--c[x[i]]] = i;
    for(j = 1; j <= n; j <<= 1)
    {
        p = 0;
//直接利用sa数组排序第二关键字
        for(i = n-j; i < n; i++)y[p++] = i;//后面的j个数第二关键字为空的最小
        for(i = 0; i < n; i++)if(sa[i] >= j)y[p++] = sa[i] - j;
//这样数组y保存的就是按照第二关键字排序的结果
//基数排序第一关键字
        for(i = 0; i < m; i++)c[i] = 0;
        for(i = 0; i < n; i++)c[x[y[i]]]++;
        for(i = 1; i < m; i++)c[i] += c[i-1];
        for(i = n-1; i >= 0; i--)sa[--c[x[y[i]]]] = y[i];
//根据sa和x数组计算新的x数组
        swap(x,y);
        p = 1;
        x[sa[0]] = 0;
        for(i = 1; i < n; i++)
            x[sa[i]] = cmp(y,sa[i-1],sa[i],j)?p-1:p++;
        if(p >= n)break;
        m = p;//下次基数排序的最大值
    }
    int k = 0;
    n--;
    for(i = 0; i <= n; i++)rank[sa[i]] = i;
    for(i = 0; i < n; i++)
    {
        if(k)k--;
        j = sa[rank[i]-1];
        while(str[i+k] == str[j+k])k++;
        height[rank[i]] = k;
    }
}
int rank[MAXN],height[MAXN];
char str[MAXN];
int r[MAXN];
int sa[MAXN];
int belong[MAXN];
bool vis[120];
bool judge(int n,int len,int num)
{
    int cnt=0;
    memset(vis,0,sizeof vis);
    vis[0] = 1;
    if(!vis[belong[sa[0]]])
    {
        cnt++;
        vis[belong[sa[0]]] = 1;
    }
    for(int i = 1;i < n;i++)
    {
        if(height[i] < len)
        {
            cnt = 0;
            memset(vis,0,sizeof(vis));
            vis[0] = 1;
            if(!vis[belong[sa[i]]])//如果这个DNA没被标记过就标记起来
            {
                vis[belong[sa[i]]] = 1;
                cnt++;
            }
        }
        else
            if(!vis[belong[sa[i]]])
            {
                cnt++;
                vis[belong[sa[i]]] = 1;
            }
        if(cnt >= num) return 1;//超过要求的数目就返回真
    }
    return 0;
}
void print(int n,int len,int num)//就是在judge函数上增加了输出部分
{
    int cnt = 0;
    memset(vis,0,sizeof(vis));
    vis[0] = 1;
    if(!vis[belong[sa[0]]]) cnt ++;
    vis[belong[sa[0]]] = 1;

    for(int i = 1;i < n;i++)
    {
        if(height[i] < len)
        {
            if(cnt >= num)
            {
                for(int j = sa[i-1];j < sa[i-1]+len;j++)
                    printf("%c",r[j]);
                printf("\n");
            }
            cnt = 0;
            memset(vis,0,sizeof(vis));
            vis[0] = 1;
            if(!vis[belong[sa[i]]])
            {
                cnt ++;
                vis[belong[sa[i]]] = 1;
            }
        }
        if(!vis[belong[sa[i]]])
        {
            cnt++;
            vis[belong[sa[i]]] = 1;
        }
    }
    if(cnt >= num)
    {
        for(int i = sa[n-1];i < sa[n-1]+len;i++)
            printf("%c",r[i]);
        printf("\n");
    }
}
int main()
{
    if (fopen("in.txt", "r") != NULL)
    {
        freopen("in.txt", "r", stdin);
        // freopen("out.txt", "w", stdout);
    }
    int n;
    int icase=0;
    while(~scanf("%d",&n),n)
    {
        if(icase++) puts("");
        memset(belong,0,sizeof belong);
        int lenr=0;
        int split=int('z')+1;
        for(int i=1;i<=n;i++)
        {
            scanf("%s",str);
            int j;
            for(j=0;str[j];j++)
            {
                r[lenr]=str[j];
                belong[lenr]=i;//belong[i]的意思是后缀位置i是属于哪个DNA串的
                lenr++;
            }
            r[lenr++]=split++;
        }
        da(r,sa,rank,height,lenr,split);
        int l=0,r=lenr;
        for(int i=0;i<30;i++)
        {
            int m=(l+r)>>1;
            if(judge(lenr,m,n/2+1))
                l=m;
            else r=m;
        }
        if(l==0) puts("?");
        else print(lenr,l,n/2+1);
    }
    return 0;
}