题目:http://poj.org/problem?id=3693
题意:
给定一个字符串,求重复次数最多的连续重复子串
分析:
在后缀数组神文中也这题的题解。
比较容易理解的部分就是枚举长度为L,然后看长度为L的字符串最多连续出现几次。
既然长度为L的串重复出现,那么str[0],str[l],str[2*l]……中肯定有两个连续的出现在字符串中。那么就枚举连续的两个,然后从这两个字符前后匹配,看最多能匹配多远。即以str[i*l],str[i*l+l]前后匹配,这里是通过查询suffix(i*l),suffix(i*l+l)的最长公共前缀,通过rank值能找到i*l,与i*l+l的排名,我们要查询的是这段区间的height的最小值,通过RMQ预处理,达到查询为0(1)的复杂度。
设LCP长度为M, 则答案显然为M / L + 1, 但这不一定是最好的, 因为答案的首尾不一定再我们枚举的位置上. 我的解决方法是, 我们考虑M % L的值的意义, 我们可以认为是后面多了M % L个字符, 但是我们更可以想成前面少了(L - M % L)个字符! 所以我们求后缀j * L - (L - M % L)与后缀(j + 1) * L - (L - M % L)的最长公共前缀。即把之前的区间前缀L-M%L即可。
然后把可能取到最大值的长度L保存,由于 题目要求字典序最小,通过sa数组进行枚举,取到的第一组,肯定是字典序最小的。
以上分析copy自:http://blog.csdn.net/acm_cxlove/article/details/7941205
#include<cstdio>
#include<cstring>
#include<algorithm>
#include<iostream>
using namespace std;
const int INF = 1e9 + 9;
const int N = 1e5 + 9;
/********************倍增算法*后缀数组模板*******************************/
int sa[N], t1[N], t2[N], c[N], rk[N], height[N];
void build_sa (int s[], int n, int m) {
int i, k, p, *x = t1, *y = t2;
for (i = 0; i < m; i++) c[i] = 0;
for (i = 0; i < n; i++) c[x[i] = s[i]]++;
for (i = 1; i < m; i++) c[i] += c[i - 1];
for (i = n - 1; i >= 0; i--) sa[--c[x[i]]] = i;
for (k = 1; k <= n; k <<= 1) {
p = 0;
for (i = n - k; i < n; i++) y[p++] = i;
for (i = 0; i < n; i++) if (sa[i] >= k) y[p++] = sa[i] - k;
for (i = 0; i < m; i++) c[i] = 0;
for (i = 0; i < n; i++) c[x[y[i]]]++;
for (i = 1; i < m; i++) c[i] += c[i - 1];
for (i = n - 1; i >= 0; i--) sa[--c[x[y[i]]]] = y[i];
swap (x, y);
p = 1;
x[sa[0]] = 0;
for (i = 1; i < n; i++)
x[sa[i]] = y[sa[i - 1]] == y[sa[i]] && y[sa[i - 1] + k] == y[sa[i] + k] ? p - 1 : p ++;
if (p >= n) break;
m = p;
}
}
void getHeight (int s[], int n) {
int i, j, k = 0;
for (i = 0; i <= n; i++) rk[sa[i]] = i;
for (i = 0; i < n; i++) {
if (k) k--;
j = sa[rk[i] - 1];
while (s[i + k] == s[j + k]) k++;
height[rk[i]] = k;
}
}
/********************************************************************************/
int d[N][20];
void init (int n, int A[]) { //RMQ
//int n=A.size();
for (int i = 1; i <= n; i++) d[i][0] = A[i];
for (int j = 1; (1 << j) <= n + 1; j++)
for (int i = 0; i + (1 << j) - 1 <= n; i++)
d[i][j] = min (d[i][j - 1], d[i + (1 << (j - 1) )][j - 1]);
}
int query (int L, int R) {
int k = 0;
while ( (1 << (k + 1) ) <= R - L + 1) k++;
return min (d[L][k], d[R - (1 << k) + 1][k]);
}
int lcp (int a, int b) {
a = rk[a];
b = rk[b];
if (a > b) swap (a, b);
return query (a + 1, b);
}
int s[N], n, a[N], cas = 0;
char str[N];
int main() {
//freopen ("f.txt", "r", stdin);
while (~scanf ("%s", str) ) {
if (str[0] == '#') break;
int n = strlen (str);
for (int i = 0; i <= n; i++) s[i] = str[i];
build_sa (s, n + 1, 128);
getHeight (s, n);
init (n, height);
int cnt = 0 ,maxn = 0;
for (int L = 1; L < n; L++) {
for (int i = 0; i + L < n; i += L) {
int t = lcp (i, i + L);
int step = t / L + 1;
int k = i - (L - t % L);
if (k >= 0 && t % L) {
if (lcp (k, k + L) >= t) step++;
}
if (step > maxn) {
maxn = step;
cnt = 0;
a[cnt++] = L;
} else if (step == maxn) a[cnt++] = L;
}
}
int len = -1, pos = 0;
for (int i = 1; i <= n && len == -1; i++) {
for (int j = 0; j < cnt; j++) {
int L = a[j];
if (lcp (sa[i], sa[i] + L) >= (maxn - 1) *L) {
len = L;
pos = sa[i];
break;
}
}
}
//cout<<maxn<<endl;
str[pos + len * maxn] = 0;
printf ("Case %d: %s\n", ++cas, str + pos);
}
return 0;
}
/*
Sample Input
ccabababc
daabbccaa
#
Sample Output
Case 1: ababab
Case 2: aa
*/