1.题目描述:点击打开链接
2.解题思路:本题是我学习后缀数组的第一个例题,后缀数组是处理字符串题目的有力工具,但是原理还是稍微有一点难以理解。初学时候先知道它是怎么运用的。就拿这道题为例来说明一下。本题要求你在输入的n个串中求一个长度最大的字符串,使得它在超过一半的字符串中都出现过,如果有多解,那么按照字典序输出。
利用后缀数组处理这类题目时候,常见的技巧是把这些字符串拼成一个长串,拼接点用不同的分隔符来连接这些串,然后,求解这个长串的SA和height数组并二分答案,每次都需要判断是否有一个长度为p的串在超过一半的串中出现过。这样就可以找到最大的长度了。
接下来的问题是如何判断是否有一个长度为p的串在超过一半的串中出现过?一个办法是可以分段处理,扫描一遍height数组,把它分成若干段,每当height[i]小于p时开辟一个新段,则每段的最初p个字符均是相同的,只要某一段中有超过n/2个原串的后缀,p就是满足条件的。
但是,怎么实现在[L,R)这段中,判断是否有超过n/2个后缀呢?最简单的一种办法是用一个数组标记当前段中是否包含了各个原串的后缀(比如,如果原串i的后缀出现了,那么flag[i]=1)然后每次开启一个新段时候检查flag=1的个数是否超过n/2,然后清空flag.这样,每次判断的时间复杂度是O(L),总的时间复杂度就是O(LlogL)。具体实现请看good函数。
3.代码:
#include<iostream>
#include<algorithm>
#include<cassert>
#include<string>
#include<sstream>
#include<set>
#include<bitset>
#include<vector>
#include<stack>
#include<map>
#include<queue>
#include<deque>
#include<cstdlib>
#include<cstdio>
#include<cstring>
#include<cmath>
#include<ctime>
#include<cctype>
#include<complex>
#include<functional>
#pragma comment(linker, "/STACK:1024000000,1024000000")
using namespace std;
#define me(s) memset(s,0,sizeof(s))
#define rep(i,n) for(int i=0;i<(n);i++)
typedef long long ll;
typedef unsigned int uint;
typedef unsigned long long ull;
typedef pair <int, int> P;
const int maxn = 1001 * 100 + 10;
struct SuffixArray {
int s[maxn]; // 原始字符数组(最后一个字符应必须是0,而前面的字符必须非0)
int sa[maxn]; // 后缀数组
int rank[maxn]; // 名次数组. rank[0]一定是n-1,即最后一个字符
int height[maxn]; // height数组
int t[maxn], t2[maxn], c[maxn]; // 辅助数组
int n; // 字符个数
void clear() { n = 0; memset(sa, 0, sizeof(sa)); }
// m为最大字符值加1。调用之前需设置好s和n
void build_sa(int m) {
int i, *x = t, *y = t2;
for(i = 0; i < m; i++) c[i] = 0;
for(i = 0; i < n; i++) c[x[i] = s[i]]++;
for(i = 1; i < m; i++) c[i] += c[i-1];
for(i = n-1; i >= 0; i--) sa[--c[x[i]]] = i;
for(int k = 1; k <= n; k <<= 1) {
int p = 0;
for(i = n-k; i < n; i++) y[p++] = i;
for(i = 0; i < n; i++) if(sa[i] >= k) y[p++] = sa[i]-k;
for(i = 0; i < m; i++) c[i] = 0;
for(i = 0; i < n; i++) c[x[y[i]]]++;
for(i = 0; i < m; i++) c[i] += c[i-1];
for(i = n-1; i >= 0; i--) sa[--c[x[y[i]]]] = y[i];
swap(x, y);
p = 1; x[sa[0]] = 0;
for(i = 1; i < n; i++)
x[sa[i]] = y[sa[i-1]]==y[sa[i]] && y[sa[i-1]+k]==y[sa[i]+k] ? p-1 : p++;
if(p >= n) break;
m = p;
}
}
void build_height() {
int i, j, k = 0;
for(i = 0; i < n; i++) rank[sa[i]] = i;
for(i = 0; i < n; i++) {
if(k) k--;
int j = sa[rank[i]-1];
while(s[i+k] == s[j+k]) k++;
height[rank[i]] = k;
}
}
};
const int maxc = 100 + 10; // 串的个数
const int maxl = 1000 + 10; // 每个串的长度
SuffixArray sa;
int n;
char word[maxl];
int idx[maxn];
int flag[maxc];
// 子串[L,R) 是否符合要求
bool good(int L, int R) {
memset(flag, 0, sizeof(flag));
if(R - L <= n/2) return false;
int cnt = 0;
for(int i = L; i < R; i++) {
int x = idx[sa.sa[i]];
if(x != n && !flag[x]) { flag[x] = 1; cnt++; }
}
return cnt > n/2;
}
void print_sub(int L, int R) {
for(int i = L; i < R; i++)
printf("%c", sa.s[i] - 1 + 'a');
printf("\n");
}
bool print_solutions(int len, bool print) {
int L = 0;
for(int R = 1; R <= sa.n; R++) {
if(R == sa.n || sa.height[R] < len) { // 新开一段
if(good(L, R)) {
if(print) print_sub(sa.sa[L], sa.sa[L] + len); else return true;
}
L = R;
}
}
return false;
}
void solve(int maxlen) {
if(!print_solutions(1, false))
printf("?\n");
else {
int L = 1, R = maxlen, M;
while(L < R) {
M = L + (R-L+1)/2;
if(print_solutions(M, false)) L = M;
else R = M-1;
}
print_solutions(L, true);
}
}
// 给字符串加上一个字符,属于字符串i
void add(int ch, int i) {
idx[sa.n] = i;
sa.s[sa.n++] = ch;
}
int main() {
int kase = 0;
while(scanf("%d", &n) == 1 && n) {
if(kase++ > 0) printf("\n");
int maxlen = 0;
sa.clear();
for(int i = 0; i < n; i++) {
scanf("%s", word);
int sz = strlen(word);
maxlen = max(maxlen, sz);
for(int j = 0; j < sz; j++)
add(word[j] - 'a' + 1, i);
add(100 + i, n); // 结束字符
}
add(0, n);
if(n == 1) printf("%s\n", word);
else {
sa.build_sa(100 + n);
sa.build_height();
solve(maxlen);
}
}
return 0;
}