hdu 2459

最新推荐文章于 2016-08-22 14:58:43 发布

hexianhao

最新推荐文章于 2016-08-22 14:58:43 发布

阅读量554

点赞数

分类专栏：后缀数组文章标签：后缀数组

本文链接：https://blog.csdn.net/hexianhao/article/details/50556046

版权

后缀数组专栏收录该内容

6 篇文章 0 订阅

订阅专栏

题意：让你求一个串中连续重复次数最多的串(不重叠)，如果重复的次数一样多的话就输出字典序小的那一串。

我的解题思路：这个题目很明显就是后缀数组的运用，我首先是枚举长度，然后判断该长度下是否可以找到重复子串。关键是如何来找，我是这样算的，首先判断sa[i-1]和sa[i]的最长公共前缀，如果长度大于等于枚举的那个长度，就说明有可能这两个串是有重复的部分，接下来看这两个串的位置差，如果也等于枚举长度，说明两个串的重复部分是紧挨在一块的，那么个数+1，并且记录下重复串中，循环节的最后的起始位置。字典序的判断这里就直接利用rank数组，比较两个不同循环节起始位置的rank值。

但这样的思路不知道哪里错了，在讨论区里面测试了很多代码都对了，在poj上交是WA,在hdu上交是TLE,我想用二分长度去算，可是变成了WA啦。。真不清楚哪里的问题。。

我的代码：

#include<iostream>
#include<cstdio>
#include<cstring>
using namespace std;

const int maxn = 100005;
int s[maxn],t[maxn],t2[maxn],c[maxn];
int rk[maxn],height[maxn],sa[maxn],ans,pm;
char str[maxn];

void getsa(int n,int m)
{
	int i,*x = t,*y = t2;
	for(i = 0; i < m; i++) c[i] = 0;
	for(i = 0; i < n; i++) c[x[i] = s[i]]++;
	for(i = 1; i < m; i++) c[i] += c[i-1];
	for(i = n-1; i >= 0; i--) sa[--c[x[i]]] = i;
	for(int k = 1; k <= n; k = k << 1)
	{
		int p = 0;
		for(i = n-k; i < n; i++) y[p++] = i;
		for(i = 0; i < n; i++) if(sa[i] >= k) y[p++] = sa[i]-k;
		for(i = 0; i < m; i++) c[i] = 0;
		for(i = 0; i < n; i++) c[x[y[i]]]++;
		for(i = 1; i < m; i++) c[i] += c[i-1];
		for(i = n-1; i >= 0; i--) sa[--c[x[y[i]]]] = y[i];
		swap(x,y);
		p = 1, x[sa[0]] = 0;
		for(i = 1; i < n; i++)
			x[sa[i]] = y[sa[i]] == y[sa[i-1]] && y[sa[i]+k] == y[sa[i-1]+k] ? p-1:p++;
		if(p >= n) break;
		m = p;
	}
}

void getheight(int n)
{
	int i,j,k = 0;
	for(i = 1; i <= n; i++) rk[sa[i]] = i;
	for(i = 0; i < n; i++)
	{
		if(k) k--;
		j = sa[rk[i]-1];
		while(s[i+k] == s[j+k]) k++;
		height[rk[i]] = k;
	}
}

bool find(int n,int m)
{
	int mint,maxt,p = -1,cnt = 1;
	bool flag = false;
	for(int i = 1; i <= n; i++)
	{
		int t = height[i];
		if(t >= m)
		{
			 mint = min(sa[i],sa[i-1]);
			 maxt = max(sa[i],sa[i-1]);	
			 if(mint + m == maxt)	//如果按字典序排列的相邻两个后缀的位置差为m，那么肯定是重复的。
			 {
				 cnt++;
				 p = max(p,maxt);	//p不断的寻找最后那个循环节的位置。
			 }
			 else 
			 {
				 if(cnt == 1) continue;	//cnt = 1,说明没有符合条件的重复子串
				 if(cnt > ans)	//cnt > ans 毫无疑问，这个肯定是比当前更优的结果，先保存下来。
				 {
					 ans = cnt;
					 pm = p;
					 flag = true;	//flag=true，说明当重复的循环节长度为m时，确实能够找到这样的子串。
				 }
				 else if(cnt == ans && rk[p] < rk[pm])	//cnt = ans，那么就要比较两者的字典序大小，这里直接拿rank数组比较
				 {
					 pm = p;		//pm表示的是这一个重复子串当中，最后的循环节的起始位置。
					 flag = true;
				 }
				 cnt = 1;
				 p = -1;	//cnt = 1，p = -1，这一个子串算是找完了，看能不能找到别的子串。
			 }
		}
		else	//理由同上，这里的代码和上面的小部分一样，但是处理的场合不同。
		{
			if(cnt == 1) continue;
			if(cnt > ans)
			{
				ans = cnt;
				pm = p;
				flag = true;
			}
			else if(cnt == ans && rk[p] < rk[pm])
			{
				pm = p;
				flag = true;
			}
			cnt = 1;	
			p = -1;	//cnt = 1，p = -1，这一个子串算是找完了，看能不能找到别的子串。
		}
	}
	return flag;
}

int main()
{	
	int cas = 1;
	while(cin>>str)
	{
		int n = 0;
		if(str[0] == '#') break;
		for(int i = 0; str[i] != '\0'; i++)
			s[n++] = str[i];
		s[n] = 0;
		getsa(n+1,300);
		getheight(n);
		int len = -1;
		ans = 0;
		for(int i = 1; i <= n/2; i++)
		{
			if(find(n,i) == true)
				len = i;
		}
		printf("Case %d: ",cas++);
		if(len == -1)
		{
			printf("%c\n",str[sa[1]]);
			continue;
		}
		for(int i = pm-(ans-1)*len; i < pm+len; i++)
			printf("%c",str[i]);
		printf("\n");
	}
	return 0;
}

截取别人的思路：假设一个长度为l的子串重复出现两次，那么它必然会包含s[0]、s[l]、s[l*2]...之中的相邻的两个。不难看出，该重复子串必然会包含s[0..l]或s[l..l*2]或s[l*2..l*3]...。所以，我们可以枚举一个i，对于每个i*l的位置，利用后缀数组可以求出s[i*l..(i+1)*l]向后延伸的长度k。k/l+1即i*l..(i+1)*l这一段重复出现的次数。但还有一种情况。考虑以下的字符串：

aababababab

假设现在l=2，i=1。则当前得到的子串为ba.用后缀数组可以求得k=7，则ba共重复出现了4次。但实际上，长度为2的子串重复出现最多的应该是“ab”，出现了5次。可以看出来，上述方法求得的k不能整除l，故可能在i的左边位置存在一个子串能完整重复覆盖i这个子串后面的子串。这里是i左边一位的“ab”子串。分析下这种情况，可以得知，如果以i-(l-k%l)开头的长度为l的子串，向后延伸的长度能大于k的话，那么有一个子串出现次数为k/l+2。就这样，问题得到解决。

AC:

#include<cstdio>
#include<cstring>
#include<iostream>
#include<cmath>
using namespace std;
#define N 100005
int ws1[N],wv[N],wa[N],wb[N];
int rank[N],height[N],sa[N],len;
char str[N],xiao;
int dp[N][25];

int min(int x,int y)
{
    return x<y?x:y;
}

int cmp(int *r,int a,int b,int l)
{
    return r[a]==r[b] && r[a+l]==r[b+l];
}

void da(char *r,int *sa,int n,int m)
{
    int i,j,p,*x=wa,*y=wb,*t;
    for(i=0;i<m;i++)
        ws1[i]=0;
    for(i=0;i<n;i++)
        ws1[x[i]=r[i]]++;
    for(i=1;i<m;i++)
        ws1[i]+=ws1[i-1];
    for(i=n-1;i>=0;i--)
        sa[--ws1[x[i]]]=i;
    for(j=1,p=1;p<n;j*=2,m=p)
    {
        for(p=0,i=n-j;i<n;i++)
            y[p++]=i;
        for(i=0;i<n;i++)
            if(sa[i]>=j)
                y[p++]=sa[i]-j;
        for(i=0;i<n;i++)
            wv[i]=x[y[i]];
        for(i=0;i<m;i++)
            ws1[i]=0;
        for(i=0;i<n;i++)
            ws1[wv[i]]++;
        for(i=1;i<m;i++)
            ws1[i]+=ws1[i-1];
        for(i=n-1;i>=0;i--)
            sa[--ws1[wv[i]]]=y[i];
        for(t=x,x=y,y=t,p=1,x[sa[0]]=0,i=1;i<n;i++)
            x[sa[i]]=cmp(y,sa[i-1],sa[i],j)?p-1:p++;
    }
}

void calheight(char *r,int *sa,int n)
{
     int i,j,k=0;
     for(i=1;i<=n;i++)
         rank[sa[i]]=i;
     for(i=0;i<n;height[rank[i++]]=k)
         for(k?k--:0,j=sa[rank[i]-1];r[i+k]==r[j+k];k++) ;
}

void RMQ()//RMQ初始化
{
    int i,j,m;
    m=(int)(log((double)len)/log(2.00));
    for(i=1;i<=len;i++)
       dp[i][0]=height[i];
    for(j=1;j<=m;j++)
        for(i=1;i+(1<<j)-1<=len;i++)
            dp[i][j]=min(dp[i][j-1],dp[i+(1<<(j-1))][j-1]);
}

int lcp(int x,int y)//求最长公共前缀
{
    int t;
    x=rank[x];y=rank[y];
    if(x>y)
        swap(x,y);
    x++;
    t=(int)(log(double(y-x+1))/log(2.00));
    return min(dp[x][t],dp[y-(1<<t)+1][t]);
}

void solve()
{
    int i,j,max=1,f=0,l1,num=0,t,node=1,k,cnt,p;
    for(i=1;i<=len/2;i++)//i<=len/2优化了，枚举长度不同的循环节
    {
        for(j=0;j+i<len;j+=i)
        {
           if(str[j]!=str[j+i])//这里也优化了
               continue;
           l1=lcp(j,j+i);
           num=l1/i+1;
           p=j;
           t=i-l1%i;
           cnt=0;
           for(k=j-1;k>=0&&k+i>j&&str[k]==str[k+i];k--)//这个for循环我也不是很理解，但是大体的意思明白
           {
               cnt++;
               if(cnt==t)
               {
                   num++;
                   p=k;
               }
               else if(rank[k]<rank[p])
                   p=k;
           }
           if(max<num)
           {
               f=p;
               max=num;
               node=i;
           }
           else if(max==num&&rank[f]>rank[p])
           {
               f=p;
               node=i;
           }
        }
    }
    if(max==1)
    {
        printf("%c\n",xiao);
        return ;
    }
    for(i=f;i<=f+max*node-1;i++)
        printf("%c",str[i]);
    printf("\n");
} 

int main()
{
    int T=0,i;
    while(scanf("%s",str)!=EOF&&str[0]!='#')
    {
        T++;
        len=strlen(str);
        xiao='z'+1;
        for(i=0;i<len;i++)
           if(str[i]<xiao)
               xiao=str[i];
        str[len]='0';
        da(str,sa,len+1,'z'+1);
        calheight(str,sa,len);
        RMQ();
        printf("Case %d: ",T);
        solve();
    }
    return 0;
}

hexianhao

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
hdu 2459

题意：让你求一个串中连续重复次数最多的串(不重叠)，如果重复的次数一样多的话就输出字典序小的那一串。我的解题思路：这个题目很明显就是后缀数组的运用，我首先是枚举长度，然后判断该长度下是否可以找到重复子串。关键是如何来找，我是这样算的，首先判断sa[i-1]和sa[i]的最长公共前缀，如果长度大于等于枚举的那个长度，就说明有可能这两个串是有重复的部分，接下来看这两个串的位置差，如果也等于
复制链接

扫一扫

专栏目录