最长前缀 Longest Prefix
题目描述
在生物学中,一些生物的结构是用包含其要素的大写字母序列来表示的。生物学家对于把长的序列分解成较短的序列(即元素)很感兴趣。
如果一个集合 P 中的元素可以通过串联(元素可以重复使用,相当于 Pascal 中的 “+” 运算符)组成一个序列 S ,那么我们认为序列 S 可以分解为 P 中的元素。元素不一定要全部出现(如下例中BBC就没有出现)。举个例子,序列 ABABACABAAB 可以分解为下面集合中的元素:
{A, AB, BA, CA, BBC}
序列 S 的前面 K 个字符称作 S 中长度为 K 的前缀。设计一个程序,输入一个元素集合以及一个大写字母序列 S ,设S’是序列S的最长前缀,使其可以分解为给出的集合P中的元素,求S’的长度K。
输入格式
输入数据的开头包括 1…200 个元素(长度为 1…10 )组成的集合,用连续的以空格分开的字符串表示。字母全部是大写,数据可能不止一行。元素集合结束的标志是一个只包含一个 “.” 的行。集合中的元素没有重复。接着是大写字母序列 S ,长度为 1…200,000 ,用一行或者多行的字符串来表示,每行不超过 76 个字符。换行符并不是序列 S 的一部分。
输出格式
只有一行,输出一个整数,表示 S 符合条件的前缀的最大长度。
解法一:
kmp算法:
把集合里的元素都作为子串和主串进行匹配,然后记录主串被匹配到的位置,用差分进行记录;最后求差分数组的前缀和;然后进行判断就行;
代码:
#include<bits/stdc++.h>
#define LL long long
#define pa pair<int,int>
#define lson k<<1
#define rson k<<1|1
//ios::sync_with_stdio(false);
using namespace std;
const int N=1000100;
const int M=200100;
const LL mod=1e9+7;
char s1[210][100],s2[M];
int nex[M];
int ans[M];
string c;
int main(){
int m=0;
while(scanf("%s",s1[m]+1)&&s1[m][1]!='.') m++;
int n=0;
while(cin>>c){
for(int i=0;i<c.length();i++) s2[++n]=c[i];
}
int len2=strlen(s2+1);
for(int k=0;k<m;k++){
memset(nex,0,sizeof(nex));
nex[0]=nex[1]=0;
int len1=strlen(s1[k]+1);
int j=0;//从0开始
for(int i=2;i<=len1;i++){//子串匹配,找到子串匹配失败后要跳到位置;
while(j>0&&s1[k][j+1]!=s1[k][i]) j=nex[j];
if(s1[k][j+1]==s1[k][i]) j++;
nex[i]=j;
}
j=0;
for(int i=1;i<=len2;i++){
while(j>0&&s1[k][j+1]!=s2[i]) j=nex[j];
if(s1[k][j+1]==s2[i]) j++;
if(j==len1){
ans[i-len1+1]++;
ans[i+1]--;//差分
j=nex[j];
}
}
}
for(int i=1;i<=len2;i++){
ans[i]+=ans[i-1];
}
for(int i=1;i<=len2;i++)
if (ans[i]<=0){
printf("%d\n",i-1);
return 0;
}
printf("%d\n",len2);
return 0;
}
解法二:
dp