[CTSC2012]熟悉的文章(二分+SAM+单调队列优化dp)
题目描述
阿米巴是小强的好朋友。
在小强眼中,阿米巴是一个作文成绩很高的文艺青年。为了获取考试作文的真谛,小强向阿米巴求教。阿米巴给小强展示了几篇作文,小强觉得这些文章怎么看怎么觉得熟悉,仿佛是某些范文拼拼凑凑而成的。小强不禁向阿米巴投去了疑惑的眼光,却发现阿米巴露出了一个狡黠的微笑。
为了有说服力地向阿米巴展示阿米巴的作文是多么让人觉得“眼熟”,小强想出了一个评定作文 “熟悉程度”的量化指标: L 0 L_0 L0 .小强首先将作文转化成一个 01 01 01 串。之后,小强搜集了各路名家的文章,同样分别转化成 01 01 01 串后,整理出一个包含了 M M M 个 01 01 01 串的 “ 标准作文库 ”。
小强认为:如果一个 01 01 01 串长度不少于 L L L 且在标准作文库中的某个串里出现过(即,它是标准作文库的某个串的一个 连续子串),那么它是 “ 熟悉 ” 的。对于一篇作文(一个 01 01 01 串) A A A,如果能够把 A A A 分割成若干段子串,其中 “ 熟悉 ” 的子串的长度总和不少于 A A A 总长度的 90 % 90\% 90%,那么称 A A A 是 “ 熟悉的文章 ”。 L 0 L_0 L0 是能够让 A A A 成为 “ 熟悉的文章 ” 的 所有 L L L 的最大值 (如果不存在这样的 L L L,那么规定 L 0 = 0 L_0=0 L0=0)。
举个例子:
小强的作文库里包含了如下 2 2 2 个字符串:
10110
000001110
有一篇待考察的作文是:
1011001100
小强计算出这篇作文 L L L 的最大值是 4 4 4,因为待考察的作文可以视作 10110 + 0110 + 0 10110+0110+0 10110+0110+0,其中 10110 10110 10110 和 0110 0110 0110 被判定为 “熟悉” 的。而当 L = 5 L = 5 L=5 或是更大的时候,不存在符合题意的分割方法。所以,这篇作文的 L 0 = 4 L_0 = 4 L0=4。小强认为阿米巴作文的 L 0 L_0 L0 值比其他同学的明显要大。请你帮他验证一下。
输入格式
输入第一行是两个整数 N , M N, M N,M,表示待检查的作文数量,和小强的标准作文库的行数。
接下来是 M M M 行的 01 01 01 串,表示标准作文库。
接下来是 N N N 行的 01 01 01 串,表示 N N N 篇作文。
输出格式
输出包含 N N N 行,每一行包含一个整数,表示该篇作文的 L 0 L_0 L0 值。
样例 #1
样例输入 #1
1 2
10110
000001110
1011001100
样例输出 #1
4
显然这个
L
L
L满足单调性,直接二分
L
L
L,在此之前可以先把广义
S
A
M
SAM
SAM建好
问题在于
c
h
e
c
k
check
check,
d
p
dp
dp还是比较好想的,设
f
i
f_i
fi表示前
i
i
i个字符不能匹配的数量,有:
f
i
=
{
f
i
−
1
+
1
m
i
n
{
f
j
}
(
i
−
l
≤
j
≤
i
−
m
i
d
)
f_i= \begin{cases} f_{i-1}+1\\ min\{f_j\}& (i-l\leq j\leq i-mid) \end{cases}
fi={fi−1+1min{fj}(i−l≤j≤i−mid)
其中
l
l
l表示以
i
i
i为结尾的串在
S
A
M
SAM
SAM上能够匹配的最大长度,直接
d
p
dp
dp复杂度为
O
(
n
2
)
O(n^2)
O(n2),考虑如何优化这个
d
p
dp
dp方程。
观察到
i
−
l
i-l
i−l 和
i
−
m
i
d
i-mid
i−mid 两个端点都是单调不减的,显然满足单调队列的性质,使用单调队列维护一个区间最小值,总体时间复杂度为
O
(
n
l
o
g
n
)
O(nlogn)
O(nlogn)
#include<bits/stdc++.h>
#define clean(x) memset(x,0,sizeof(x))
#define maxn 5000005
using namespace std;
int read()
{
int x=1,res=0;
char c=getchar();
while(c<'0'||c>'9')
{
if(c=='-')
x=-1;
c=getchar();
}
while(c>='0'&&c<='9')
{
res=res*10+(c-'0');
c=getchar();
}
return res*x;
}
struct edge{
int next,to;
};
struct SAM{
int id[maxn],pos[maxn],tot=1,lt=1,num,l[maxn],ch[maxn][2],sz[maxn],f[maxn],last[maxn];
edge g[maxn];
void insert(int c,int i){
int v=++tot,u=lt;lt=tot;pos[tot]=i;id[i]=tot;
sz[v]=1;l[v]=l[u]+1;
while(u&&!ch[u][c]) {ch[u][c]=v;u=f[u];}
if(!u) {f[v]=1;return;}
int x=ch[u][c];
if(l[x]==l[u]+1) {f[v]=x;return;}
int y=++tot;pos[y]=pos[x];
l[y]=l[u]+1;f[y]=f[x];f[x]=f[v]=y;
memcpy(ch[y],ch[x],sizeof(ch[x]));
while(u&&ch[u][c]==x) {ch[u][c]=y;u=f[u];}
}
void add(int from,int to)
{
g[++num].next=last[from];
g[num].to=to;
last[from]=num;
}
void dfs(int x)
{
for(int i=last[x];i;i=g[i].next)
{
int v=g[i].to;
dfs(v);
sz[x]+=sz[v];
}
}
}sam;
struct node{
int val,id;
};
char a[maxn],b[maxn];
int f[maxn],n,m,len;
deque<node>q;
int check(int mid)
{
while(q.size()) q.pop_back();
for(int i=1;i<=len;i++) f[i]=2e9;
f[0]=0;
int u=1,L=0;
for(int i=1;i<=len;i++)
{
f[i]=min(f[i],f[i-1]+1);
int c=b[i]-'0';
while(u>1&&!sam.ch[u][c]){u=sam.f[u];L=sam.l[u];}
if(sam.ch[u][c]){u=sam.ch[u][c];L++;}
while(q.size()){
node uu=q.front();
if(uu.id<i-L)
q.pop_front();
else break;
}
while(q.size()){
node uu=q.back();
if(uu.val>=f[i-mid])
q.pop_back();
else break;
}
if(L>=mid) q.push_back((node){f[i-mid],i-mid});
if(q.size()){
int uu=q.front().val;
f[i]=min(f[i],uu);
}
}
if(f[len]<=len/10) return 1;
else return 0;
}
signed main()
{
n=read(),m=read();
for(int i=1;i<=m;i++){
scanf("%s",a+1);
len=strlen(a+1);sam.lt=1;
for(int j=1;j<=len;j++) {
sam.insert(a[j]-'0',j);
}
}
for(int i=1;i<=n;i++){
scanf("%s",b+1);
len=strlen(b+1);
int l=1,r=len;
while(l<=r){
int mid=(l+r)>>1;
if(check(mid))
l=mid+1;
else r=mid-1;
}
printf("%d\n",r);
}
return 0;
}