单串的最长可重叠子串
题意
给出一个牛n天的产奶量,在这个序列中找出最长的重复子串。
解题需注意
本题产奶量最大为1000000,采用基数排序复杂度O(1000000),会跑得很慢,据说可以AC,但是为了追求速度我们这里采用离散化+基数排序解决这个问题。详见代码中的注释。除此之外本题的思路如下:
我们可以通过二分子串的长度k来做,这时题目变成了是否存在重复次数至少为K次且长度不小k的子串。首先我们可以把相邻的所有不小于k的height[]看成一组,这组内有多少个字符串,就相当于有多少个长度至少为k的重复的子串。之所以可以这么做,是因为排名第i的字符串和排名第j的字符串的最长公共前缀等于height[i],height[i+1],...,height[j]中的最小值,所以把所有不小于k的height[]看成一组就保证了组内任意两个字符串的最长公共前缀都至少为k,且长度为k的前缀是每个字符串共有的,因此这组内有多少个字符串,就相当于有多少个长度至少为k的重复的子串(任意一个子串都是某个后缀的前缀)。
代码君
#include <cstdio>
#include <cstring>
#include <algorithm>
using namespace std;
const int MAX = 20010;
int n,k;
int s[MAX],ss[MAX];
int sa[MAX],rank[MAX],height[MAX];
int wa[MAX],wb[MAX],wv[MAX],ws[MAX];
int cmp(int *r,int a,int b,int l) {
return r[a] == r[b] && r[a+l] == r[b+l];
}
void fun(int *r, int n, int m){
int i,j,p,*x = wa, *y = wb, *t;
for(i = 0; i < m; i ++) ws[i] = 0;
for(i = 0; i < n; i ++) ws[x[i] = r[i]] ++;
for(i = 1; i < m; i ++) ws[i] += ws[i-1];
for(i = n-1; i >= 0; i --) sa[--ws[x[i]]] = i;
for(j = 1, p = 1; p < n; j*=2, m = p){
for(p = 0, i = n-j; i < n; i ++) y[p++] = i;
for(i = 0; i < n; i ++)
if(sa[i] >= j)
y[p++] = sa[i]-j;
for(i = 0; i < n; i ++) wv[i] = x[y[i]];
for(i = 0; i < m; i ++) ws[i] = 0;
for(i = 0; i < n; i ++) ws[wv[i]] ++;
for(i = 1; i < m; i ++) ws[i] += ws[i-1];
for(i = n-1; i >= 0; i--) sa[--ws[wv[i]]] = y[i];
for(t = x, x = y, y = t, p = 1, x[sa[0]] = 0, i = 1; i < n; i ++)
x[sa[i]] = cmp(y, sa[i-1], sa[i], j) ? p-1 : p++;
}
}
void calheight(int *r, int n){
int i, j, k=0;
for(int i=1; i<=n; i++)
rank[sa[i]] = i;
for(int i=0; i<n; i++){
if(k) k--;
int j = sa[rank[i]-1];
while(r[i+k] == r[j+k]) k++;
height[rank[i]] = k;
}
}
//以上为求sa和height的模板
bool check(int mid){
int cnt = 1;
for(int i=2; i<=n; i++){
if(height[i] >= mid){//按照height分组
cnt++;
if(cnt >= k) return true;
}
else cnt = 1;
}
return false;
}
void solve(){//二分长度,因为答案具有连续性
int l = 1, r = n, ans;
while(l <= r){
int mid = (l + r) >> 1;
if(check(mid)){
ans = mid;
l = mid + 1;
}
else r = mid - 1;
}
printf("%d\n",ans);
}
int main(){
int newn;
scanf("%d%d",&n,&k);
for(int i=0; i<n; i++){
scanf("%d",&s[i]);
ss[i] = s[i];
}
sort(ss, ss+n);
newn = unique(ss, ss+n) - ss;//离散化后的基数排序的范围
for(int i=0; i<n; i++)//离散化
s[i] = lower_bound(ss, ss+newn, s[i]) - ss + 1;//用排序后元素所在的位置代替元素本身的大小,这样不改变元素之间的大小关系及各种性质且缩小了元素的范围
s[n] = 0;
fun(s, n+1, newn+1);
calheight(s, n);
solve();
}