算法思想
详细思想不赘述,见Matrix67的博客
根据P数组的KMP匹配过程代码如下
//这里的A和B串以1开始存储
void KMP()
{
int j=0,m=strlen(B+1);
for(int i=0;i<n;i++)
{
while(A[i+1]!=B[j+1]&&j>0) j=P[j];//不能继续匹配且j还没减少到0,减少j的值
if(A[i+1]==B[j+1]) j++;//能继续匹配,j自增
if(j==m)
{
printf("pos: %d",i-m);//输出子串串首在母串位置
j=P[j];//可重叠查找
}
}
}
//P[j]表示当匹配到B数组的第j个字符而第j+1个字符態匹配时,新的j最大为多少
构造P数组的代码如下
//B以1开始存储
void Pre()
{
P[1]=0;//错位匹配
int j=0,m=strlen(B+1);
for(int i=1;i<m;i++)
{
while(j>0&&B[i+1]!=B[j+1]) j=P[j];//不能匹配且j未到0后退
if(B[i+1]==B[j+1]) j++;//能匹配,j自增
P[i+1]=j;//每趟循环求i+1位置值,即第i+1个位置之前已经匹配了多少个B中字符
}
}
训练
HDU2087
题目大意:略
思路:统计有几个模式串,需要将对应的位置进行修改,详见代码
代码
#include <iostream>
#include <cstdlib>
#include <cstdio>
#include <cstring>
using namespace std;
int P[1212];
char A[1212],B[1212];
void Pre() {
int j=0,m=strlen(B+1);
P[1]=0;
for(int i=1; i<m; i++) {
while(j>0&&B[i+1]!=B[j+1])
j=P[j];
if(B[i+1]==B[j+1])
j++;
P[i+1]=j;
}
}
int KMP() {
int j=0,n=strlen(A+1),ans=0,m=strlen(B+1);
for(int i=0; i<n; i++) {
while(j>0&&A[i+1]!=B[j+1])
j=P[j];
if(A[i+1]==B[j+1])
j++;
if(j==m) {//匹配成功,记录数量并且清零
ans++;
j=0;
}
}
return ans;
}
int main() {
while(~scanf("%s",A+1)) {
if(A[1]=='#')
break;
scanf("%s",B+1);
Pre();
printf("%d\n",KMP());
memset(P,0,sizeof(P));
}
return 0;
}
HDU2594
题目大意:给出数对字符串,判断是否存在第一个串的前缀等于第二个串的后缀,如果有,求最长前缀并输出前缀长度
思路:尝试直接合并两串然后KMP,但是TLE,直接用前串去匹配后串,最后获得的j即是答案
代码
#include <iostream>
#include <cstdlib>
#include <cstdio>
#include <cstring>
using namespace std;
int P[121212],pos,len;
char a[212121],b[212121];
void Pre() {//a串为模式串
int m=strlen(a+1),j=0;
P[1]=0;
for(int i=1; i<m; i++) {
while(j>0&&a[i+1]!=a[j+1])
j=P[j];
if(a[i+1]==a[j+1])
j++;
P[i+1]=j;
}
}
void KMP() {
int n=strlen(b+1),j=0;
for(int i=0; i<n; i++) {
while(j>0&&b[i+1]!=a[j+1])
j=P[j];
if(b[i+1]==a[j+1])
j++;
}
if(j==0)//直接判断即可,这里的j最后会返回到首部
printf("0\n");
else {
for(int i=1; i<=j; i++)
putchar(a[i]);
printf(" %d\n",j);
}
}
int main() {
while(~scanf("%s%s",a+1,b+1)) {
Pre();
KMP();
memset(P,0,sizeof(P));
memset(a,0,sizeof(a));
memset(b,0,sizeof(b));
len=0,pos=0;
}
return 0;
}
HDU1686
题目大意:给出数个字符串对,判断第一个在第二个中出现几次(可重合)
思路:KMP,修改一下用来计数
代码
#include <iostream>
#include <cstdlib>
#include <cstdio>
#include <cstring>
using namespace std;
int P[12121],T;
char a[12121],b[1212121];
void Pre() {
int m=strlen(a+1),j=0;
P[1]=0;
for(int i=1; i<m; i++) {
while(j>0&&a[i+1]!=a[j+1])
j=P[j];
if(a[i+1]==a[j+1])
j++;
P[i+1]=j;
}
}
int KMP() {
int n=strlen(b+1),j=0,ans=0,m=strlen(a+1);
for(int i=0; i<n; i++) {
while(j>0&&b[i+1]!=a[j+1])
j=P[j];
if(b[i+1]==a[j+1])
j++;
if(j==m) {
j=P[j];
ans++;
}
}
return ans;
}
int main() {
scanf("%d",&T);
while(T--) {
scanf("%s%s",a+1,b+1);
Pre();
printf("%d\n",KMP());
memset(P,0,sizeof(P));
}
return 0;
}
HDU3336
题目大意:给出一个字符串,求其所有前缀在字符串中出现的个数
思路:首先构造KMP的next数组,对于任意长度的前缀来说,如果有一个位置的P值等于该前缀的末尾值,代表该前缀在后缀出现了一次,反过来也一样,因此可以对P数组累和,如果P数组在某一位置有值,代表该位置上的j长度的字符串在前缀中出现了一次,计数器增加,否则不变,详见代码
代码
#include <iostream>
#include <cstdlib>
#include <cstdio>
#include <cstring>
using namespace std;
int T,n,P[212121];
char a[212121];
void Pre() {
int j=0,m=strlen(a+1);
P[1]=0;
for(int i=1; i<m; i++) {
while(j>0&&a[i+1]!=a[j+1])
j=P[j];
if(a[i+1]==a[j+1])
j++;
P[i+1]=j;
}
}
int main() {
scanf("%d",&T);
while(T--) {
scanf("%d",&n);
scanf("%s",a+1);
Pre();
int ans=n%10007;
for(int i=0; i<=n; i++)
ans=(ans+(P[i]==0?0:1))%10007;
//P[i]有值代表当前后缀有前缀出现,也就是有前缀在后面出现,个数增加
printf("%d\n",ans);
memset(P,0,sizeof(P));
}
return 0;
}
POJ3080
题目大意:给出多个(不大于10)长度为60的字符串,求出它们的最大连续公共子串
思路:以第一个为基准,将第一个的所有后缀去匹配其他字符串,获得是否出现以及最大长度,之后获得最大长度的最小值,详见代码
代码
#include <iostream>
#include <cstring>
#include <cstdlib>
#include <cstdio>
using namespace std;
int T,m,P[1212];
char pattern[1212],input[20][1212],t[1212];
void Pre() {//预处理P数组
int j=0,len=strlen(pattern+1);
P[1]=0;
for(int i=1; i<len; i++) {
while(j>0&&pattern[i+1]!=pattern[j+1])
j=P[j];
if(pattern[i+1]==pattern[j+1])
j++;
P[i+1]=j;
}
}
int KMP() {
Pre();
int Min=9999,j=0;
for(int k=2; k<=m; k++) {//对其他串KMP
int M=-9999;
for(int i=0; i<60; i++) {
while(j>0&&input[k][i+1]!=pattern[j+1])
j=P[j];
if(input[k][i+1]==pattern[j+1])
j++;
M=max(M,j);//求最大匹配数
}
Min=min(M,Min);//求最大的最小
}
return Min;
}
int main() {
scanf("%d",&T);
while(T--) {
scanf("%d",&m);
int res=-9999;
for(int i=1; i<=m; i++)//录入数据
scanf("%s",input[i]+1);
for(int i=0; i<=57; i++) {
strcpy(pattern+1,input[1]+1+i);//以第一个串的后缀为基准在其他串中查找
int tmp=KMP();
if(tmp>res||(tmp==res&&strcmp(t,pattern+1)>0)) {
res=tmp;
strncpy(t,pattern+1,tmp);
}//获得最值,长度相同就按字典序取
}
if(res>=3)
printf("%s\n",t);
else
printf("no significant commonalities\n");
memset(t,0,sizeof(t));
memset(P,0,sizeof(P));
memset(pattern,0,sizeof(pattern));
}
return 0;
}
POJ3541
题目大意:给出一个01串T,再给出一个01串S,判断S通过循环右移位异或能否得到T(如S为1010,循环移位一位得到0101,异或为1111)
思路:本题常用的想法为求出S所有的循环移位然后各自异或,有更简单的方法,由题可知, T = S 1 x o r S 2 T=S_1xorS_2 T=S1xorS2,T已知,对于每个循环移位串 S 1 S_1 S1,如果存在一个循环移位串 S 2 S_2 S2在S的循环移位中,那么显然有先前式子成立,S的循环移位串可以用S+S来构造,即将S自我拼接,问题便转换为在2S中查找 S 2 S_2 S2,使用KMP即可
代码
#include <iostream>
#include <cstdlib>
#include <cstdio>
#include <cstring>
using namespace std;
int m,P[121212];
char a[121212],b[121212],t[121212];
void Pre() {
int j=0;
P[1]=0;
for(int i=1; i<m; i++) {
while(j>0&&t[i+1]!=t[j+1])
j=P[j];
if(t[i+1]==t[j+1])
j++;
P[i+1]=j;
}
}
bool KMP() {
int j=0;
for(int i=0; i<2*m; i++) {
while(j>0&&b[i+1]!=t[j+1])
j=P[j];
if(b[i+1]==t[j+1])
j++;
if(j==m)
return 1;
}
return 0;
}
int main() {
while(~scanf("%s%s",a+1,b+1)) {
m=strlen(b+1);
strncpy(b+m+1,b+1,m*sizeof(char));//延长b作为主串被查找
bool flag=0;
for(int j=0; j<m; j++) {//将a与循环得到的串异或,判断另一串是否在延长的b中
if(flag)
break;
for(int i=1; i<=m; i++)//获得异或结果
t[i]='0'+((a[i]-'0')^(b[i+j]-'0'));
Pre();
flag=KMP();
memset(P,0,sizeof(P));
}
memset(t,0,sizeof(t));
if(flag)
printf("Yes\n");
else
printf("No\n");
}
return 0;
}
总结
KMP算法是单模字符串匹配的常用算法,效率很高,但是不容易理解和掌握,构造的P数组是关键,可以和字典树构成AC自动机