教练的专题,第一题模板题,第二题多校题,话说这题真的想了好久,后缀数组的用法真的太多了。。。
感觉很多时候都需要用二分来求解。特别这道题,感觉简直把二分运用到了极致。。。
题目大意:
给你一个串,求它所有子串的第k大(可重复)。
解题思路:
这道题目,首先我们要根据我们求出来的sa数组,因为我们sa数组是按字典序排好序的,所以理论上来说我们最小的子串应该是按照sa数组的顺序来的,但是这里要考虑当前i 和 i+1 的公共前缀。例如 BBC 正常来说 sa[1] 应该是 0,但是排第二小的不是BB而是B。因为公共前缀的关系,所以我们这里可以写一个函数处理出 从第一个 sa 到 pos个sa 一共包括多少个子串,函数部分在此不赘述了,可以看代码,会注释清楚,看代码应该比较容易理解。
这样的话通过上述的二分我们可以找到一个pos 即我们要找的答案应该在sa[pos]这里的后缀中。
这里找到以后,我们可以把k处理一下,减去之前的sa[pos-1],即找到sa[pos]中的第k大。
接下来我们又需要借助二分的力量,因为我们已经确定了我们答案的左边界,接下来要做的就是确立右边界,这时二分右边界,找出我们当前的右边界有多少子串,是否大于k,最后找出右边界即可。
大体思路是这样,但是代码中有许多细节需要注意一下。
其次这种第k大串还有一种求法,即优先队列,每次先将所有的单字符丢进去,然后取出最小的,加上它后面的字符再丢进去,进行k次这样的操作,取出的即是第k大串,但是这样对于k的大小有要求,这道题目k的大小是1e10,所有不能采用这个方法,不过一般k小的话这个方法应该是最优的= = 编程复杂度很小,
Ac代码:
#include<bits/stdc++.h>
#define rank ra
using namespace std;
const int maxn=2e5+10;
const int INF=1e9+7;
typedef long long ll;
char s[maxn];
ll k;
int n,sa[maxn],rank[maxn],height[maxn];
int t1[maxn],t2[maxn],r[maxn],c[maxn];
bool cmp(int *r,int a,int b,int l)
{
return r[a]==r[b] && r[a+l]==r[b+l];
}
void da(int str[],int sa[],int rank[],int height[],int n,int m)
{
n++;
int i,j,p,*x=t1,*y=t2;
for(int i=0;i<m;i++) c[i]=0;
for(int i=0;i<n;i++) c[x[i]=str[i]]++;
for(int i=1;i<m;i++) c[i]+=c[i-1];
for(int i=n-1;i>=0;i--) sa[--c[x[i]]]=i;
for(int j=1;j<=n;j<<=1)
{
p=0;
for(int i=n-j;i<n;i++) y[p++]=i;
for(int i=0;i<n;i++) if(sa[i]>=j) y[p++]=sa[i]-j;
for(int i=0;i<m;i++) c[i]=0;
for(int i=0;i<n;i++) c[x[y[i]]]++;
for(int i=1;i<m;i++) c[i]+=c[i-1];
for(int i=n-1;i>=0;i--) sa[--c[x[y[i]]]]=y[i];
swap(x,y);
p=1,x[sa[0]]=0;
for(int i=1;i<n;i++)
x[sa[i]]=cmp(y,sa[i-1],sa[i],j)?p-1:p++;
if(p>=n) break;
m=p;
}
int k=0;
n--;
for(int i=0;i<=n;i++) rank[sa[i]]=i;
for(int i=0;i<n;i++)
{
if(k) k--;
j=sa[rank[i]-1];
while(str[i+k]==str[j+k]) k++;
height[rank[i]]=k;
}
}
ll check(int pos) //计算对于1到pos共有多少子串
{
ll res=0;
int now=INF;
for(int i=1;i<=pos;i++) res+=n-sa[i]; //小于pos直接加上个数 大于的话特殊处理相同前缀
for(int i=pos+1;i<=n;i++)
{
now=min(height[i],now);
res+=now;
}
return res;
}
ll count(int mid,int pos) //找到以mid结尾的子串个数
{
ll res=mid-height[pos]; //直接加上子串个数
int now=mid;
for(int i=pos+1;i<=n;i++) //找出相同前缀的子串
{
now=min(now,height[i]);
if(now<=height[pos]) break;
res+=now-height[pos];
}
return res;
}
void slove(ll x,int pos)
{
int l=height[pos]+1,r=n-sa[pos],res=0; //注意二分的边界,因为height已经是算在height[i-1]里面的子串
while(l<=r)
{
int mid=(l+r)>>1;
if(count(mid,pos)>=x) res=mid,r=mid-1;
else l=mid+1;
}
for(int i=sa[pos];i<sa[pos]+res;i++) printf("%c",s[i]);
printf("\n");
}
int main()
{
int QAQ,kase=0;
scanf("%d",&QAQ);
while(QAQ--)
{
scanf(" %s%lld",s,&k);
int ls=strlen(s);
for(int i=0;i<ls;i++) r[i]=s[i];
r[ls]=0,n=ls;
da(r,sa,rank,height,n,128);
int l=0,r=n,pos=0;
while(l<=r) //二分找到pos
{
int mid=(l+r)>>1;
if(check(mid)>=k) pos=mid,r=mid-1;
else l=mid+1;
}
ll x=0;
if(pos>1) x=k-check(pos-1); //把k处理一下
else x=k;
printf("Case %d: ",++kase);
slove(x,pos);
}
return 0;
}