Problem Description
给你一个长度为n的数组(串),数组的数值范围1-1e6。让你求可重叠重复字串个数大于k的最长长度是多少
可重叠最长重复字串:
例如abcdbcdbcb,可重叠最长重复字串bcdbc。
思路:
k = 1:就是本身长度
k = 2:相当于找可重叠最长重复字串,直接找height[]数组最大值即可。
k >= 3:二分答案枚举长度 mid,按照字典序从小到大的顺序,分成若干组,每组里面的最长公共前缀都是大于 mid的,然后判断个数是否大于 k。也就是连续 k-1 个 height[i] 大于 mid。
#include<cstdio>
#include<cstring>
using namespace std;
const int maxn = 1000055;
int cntA[maxn], cntB[maxn], sa[maxn], tsa[maxn], A[maxn], B[maxn], height[maxn];
int Rank[maxn];
int n, k;
int ch[maxn];
void solve()//求sa[],Rank[],height[]
{
for(int i = 0; i < maxn; i++) cntA[i] = 0;
for(int i = 1; i <= n; i++) cntA[ch[i-1]]++;
for(int i = 1; i < maxn; i++) cntA[i] += cntA[i-1];
for(int i = n; i; i--) sa[cntA[ch[i-1]]--] = i;
Rank[sa[1]] = 1;
for(int i = 2; i <= n; i++)
{
Rank[sa[i]] = Rank[sa[i-1]];
if(ch[sa[i]-1] != ch[sa[i-1]-1]) Rank[sa[i]]++;
}
for(int l = 1; Rank[sa[n]] < n; l <<= 1)
{
memset(cntA, 0, sizeof(cntA));
memset(cntB, 0, sizeof(cntB));
for(int i = 1; i <= n; i++)
{
cntA[A[i] = Rank[i]]++;
cntB[B[i] = (i+l <= n)?Rank[i+l]:0]++;
}
for(int i = 1; i <= n; i++) cntB[i] += cntB[i-1];
for(int i = n; i; i--) tsa[cntB[B[i]]--] = i;
for(int i = 1; i <= n; i++) cntA[i] += cntA[i-1];
for(int i = n; i; i--) sa[cntA[A[tsa[i]]]--] = tsa[i];
Rank[sa[1]]=1;
for(int i = 2; i <= n; i++)
{
Rank[sa[i]] = Rank[sa[i-1]];
if(A[sa[i]] != A[sa[i-1]] || B[sa[i]] != B[sa[i-1]]) Rank[sa[i]]++;
}
}
for(int i = 1, j = 0; i <= n; i++)
{
if(j) j--;
while(ch[i+j-1] == ch[sa[Rank[i]-1] + j - 1]) j++;
height[Rank[i]] = j;
}
}
bool Isok(int mid)//判断mid长度是否满足
{
int cnt = 1, i;//只需要连续k-1一次,所以我们初始化cnt=1
for(i = 1; i <= n; i++) {
if(height[i] >= mid) cnt++;//公共前缀字串长度大于mid cnt++
else cnt = 1;
if(cnt >= k) break;满足连续k-1一次大于mid。
}
if(i <= n) return 1;
else return 0;
}
int main()
{
while(~scanf("%d %d", &n, &k))
{
for(int i = 0; i < n; i++)
scanf("%d", &ch[i]);
if(k == 1)
{
printf("%d\n", n);
continue;
}
solve();
int l = 1, r = n, ans = 0;
while(l <= r)
{
int mid = (l+r)/2;
if(Isok(mid))
ans = mid, l = mid+1;
else r = mid-1;
}
printf("%d\n", ans);
}
return 0;
}