Problem
标点符号的出现晚于文字的出现,所以以前的语言都是没有标点的。现在你要处理的就是一段没有标点的文章。
一段文章 T 是由若干小写字母构成。一个单词 W 也是由若干小写字母构成。一个字典 D 是若干个单词的集合。我们称一段文章 T 在某个字典 D 下是可以被理解的,是指如果文章 T 可以被分成若干部分,且每一个部分都是字典 D 中的单词。
例如字典 D 中包括单词 {‘is’,‘name’,‘what’,‘your’},则文章 ‘whatisyourname’ 是在字典 D 下可以被理解的,因为它可以分成 4 4 4 个单词:‘what’,‘is’,‘your’,‘name’,且每个单词都属于字典 D,而文章 ‘whatisyouname’ 在字典 D 下不能被理解,但可以在字典 D’=D+{‘you’} 下被理解。这段文章的一个前缀 ‘whatis’,也可以在字典 D 下被理解,而且是在字典 D 下能够被理解的最长的前缀。
给定一个字典 D,你的程序需要判断若干段文章在字典 D 下能够被理解的最长前缀的位置。
Solution
看到题目,容易想到这是一道AC自动机的题。
我们先根据字典 D 建出AC自动机,考虑如何求文章的最长合法前缀。
我们记录一个布尔数组 f i f_i fi, f i = 1 f_i=1 fi=1 表示 1 1 1 到 i i i 位置的单词都能被理解,初始 f 0 = 1 f_0=1 f0=1。
我们拿文章在AC自动机上匹配(假设长度为 l e n len len),每当匹配到一个单词,就看 f i − l e n f_{i-len} fi−len 是否为 1 1 1,显然,只有当 f i − l e n f_{i-len} fi−len 为 1 1 1 时 f i f_i fi 才为 1 1 1。
然后在 f i = 1 f_i=1 fi=1 里取出最大的 i i i 输出就可以了。
Code
#include<queue>
#include<cstdio>
#include<cstring>
#include<algorithm>
using namespace std;
int tot=0;
struct Trie{
int son[26];
int fail,end;
}a[1005];
char S[15],T[1000005];
void insert(){
int i,p=0;
int l=strlen(S);
for(i=0;i<l;++i){
int x=S[i]-'a';
if(!a[p].son[x])
a[p].son[x]=++tot;
p=a[p].son[x];
}
a[p].end=l;
}
void Get_fail(){
int x,i;
queue<int>Q;
for(i=0;i<26;++i)
if(a[0].son[i])
Q.push(a[0].son[i]);
while(!Q.empty()){
x=Q.front();Q.pop();
for(i=0;i<26;++i){
if(a[x].son[i]){
a[a[x].son[i]].fail=a[a[x].fail].son[i];
Q.push(a[x].son[i]);
}
else a[x].son[i]=a[a[x].fail].son[i];
}
}
}
bool f[1000005];
int Query(){
memset(f,0,sizeof(f)),f[0]=1;
int i,j,p=0,ans=0,l=strlen(T);
for(i=0;i<l;++i){
p=a[p].son[T[i]-'a'];
for(j=p;j;j=a[j].fail){
if(a[j].end){
f[i+1]|=f[i-a[j].end+1];
if(f[i+1]) {ans=i+1;break;}
}
}
}
return ans;
}
int main(){
int n,m,i;
scanf("%d%d",&n,&m);
for(i=1;i<=n;++i){
scanf("%s",S),insert();
}
Get_fail();
for(i=1;i<=m;++i){
scanf("%s",T);
printf("%d\n",Query());
}
return 0;
}