KMP笔记

算法思想

详细思想不赘述,见Matrix67的博客

KMP算法详解

在这里插入图片描述

根据P数组的KMP匹配过程代码如下

//这里的A和B串以1开始存储
void KMP()
{
	int j=0,m=strlen(B+1);
	for(int i=0;i<n;i++)
	{
		while(A[i+1]!=B[j+1]&&j>0) j=P[j];//不能继续匹配且j还没减少到0,减少j的值
		if(A[i+1]==B[j+1]) j++;//能继续匹配,j自增
		if(j==m)
		{
			printf("pos: %d",i-m);//输出子串串首在母串位置
			j=P[j];//可重叠查找
		}
	}
}
//P[j]表示当匹配到B数组的第j个字符而第j+1个字符態匹配时,新的j最大为多少

构造P数组的代码如下

//B以1开始存储
void Pre()
{
	P[1]=0;//错位匹配
	int j=0,m=strlen(B+1);
	for(int i=1;i<m;i++)
	{
		while(j>0&&B[i+1]!=B[j+1]) j=P[j];//不能匹配且j未到0后退
		if(B[i+1]==B[j+1]) j++;//能匹配,j自增
		P[i+1]=j;//每趟循环求i+1位置值,即第i+1个位置之前已经匹配了多少个B中字符
	}
}

训练

HDU2087

题目大意:略

思路:统计有几个模式串,需要将对应的位置进行修改,详见代码

代码

#include <iostream>
#include <cstdlib>
#include <cstdio>
#include <cstring>
using namespace std;
int P[1212];
char A[1212],B[1212];
void Pre() {
    int j=0,m=strlen(B+1);
    P[1]=0;
    for(int i=1; i<m; i++) {
        while(j>0&&B[i+1]!=B[j+1])
            j=P[j];
        if(B[i+1]==B[j+1])
            j++;
        P[i+1]=j;
    }
}
int KMP() {
    int j=0,n=strlen(A+1),ans=0,m=strlen(B+1);
    for(int i=0; i<n; i++) {
        while(j>0&&A[i+1]!=B[j+1])
            j=P[j];
        if(A[i+1]==B[j+1])
            j++;
        if(j==m) {//匹配成功,记录数量并且清零
            ans++;
            j=0;
        }
    }
    return ans;
}
int main() {
    while(~scanf("%s",A+1)) {
        if(A[1]=='#')
            break;
        scanf("%s",B+1);
        Pre();
        printf("%d\n",KMP());
        memset(P,0,sizeof(P));
    }
    return 0;
}

HDU2594

题目大意:给出数对字符串,判断是否存在第一个串的前缀等于第二个串的后缀,如果有,求最长前缀并输出前缀长度

思路:尝试直接合并两串然后KMP,但是TLE,直接用前串去匹配后串,最后获得的j即是答案

代码

#include <iostream>
#include <cstdlib>
#include <cstdio>
#include <cstring>
using namespace std;
int P[121212],pos,len;
char a[212121],b[212121];
void Pre() {//a串为模式串
    int m=strlen(a+1),j=0;
    P[1]=0;
    for(int i=1; i<m; i++) {
        while(j>0&&a[i+1]!=a[j+1])
            j=P[j];
        if(a[i+1]==a[j+1])
            j++;
        P[i+1]=j;
    }
}
void KMP() {
    int n=strlen(b+1),j=0;
    for(int i=0; i<n; i++) {
        while(j>0&&b[i+1]!=a[j+1])
            j=P[j];
        if(b[i+1]==a[j+1])
            j++;
    }
    if(j==0)//直接判断即可,这里的j最后会返回到首部
        printf("0\n");
    else {
        for(int i=1; i<=j; i++)
            putchar(a[i]);
        printf(" %d\n",j);
    }
}
int main() {
    while(~scanf("%s%s",a+1,b+1)) {
        Pre();
        KMP();
        memset(P,0,sizeof(P));
        memset(a,0,sizeof(a));
        memset(b,0,sizeof(b));
        len=0,pos=0;
    }
    return 0;
}

HDU1686

题目大意:给出数个字符串对,判断第一个在第二个中出现几次(可重合)

思路:KMP,修改一下用来计数

代码

#include <iostream>
#include <cstdlib>
#include <cstdio>
#include <cstring>
using namespace std;
int P[12121],T;
char a[12121],b[1212121];
void Pre() {
    int m=strlen(a+1),j=0;
    P[1]=0;
    for(int i=1; i<m; i++) {
        while(j>0&&a[i+1]!=a[j+1])
            j=P[j];
        if(a[i+1]==a[j+1])
            j++;
        P[i+1]=j;
    }
}
int KMP() {
    int n=strlen(b+1),j=0,ans=0,m=strlen(a+1);
    for(int i=0; i<n; i++) {
        while(j>0&&b[i+1]!=a[j+1])
            j=P[j];
        if(b[i+1]==a[j+1])
            j++;
        if(j==m) {
            j=P[j];
            ans++;
        }
    }
    return ans;
}
int main() {
    scanf("%d",&T);
    while(T--) {
        scanf("%s%s",a+1,b+1);
        Pre();
        printf("%d\n",KMP());
        memset(P,0,sizeof(P));
    }
    return 0;
}

HDU3336

题目大意:给出一个字符串,求其所有前缀在字符串中出现的个数

思路:首先构造KMP的next数组,对于任意长度的前缀来说,如果有一个位置的P值等于该前缀的末尾值,代表该前缀在后缀出现了一次,反过来也一样,因此可以对P数组累和,如果P数组在某一位置有值,代表该位置上的j长度的字符串在前缀中出现了一次,计数器增加,否则不变,详见代码

在这里插入图片描述

代码

#include <iostream>
#include <cstdlib>
#include <cstdio>
#include <cstring>
using namespace std;
int T,n,P[212121];
char a[212121];
void Pre() {
    int j=0,m=strlen(a+1);
    P[1]=0;
    for(int i=1; i<m; i++) {
        while(j>0&&a[i+1]!=a[j+1])
            j=P[j];
        if(a[i+1]==a[j+1])
            j++;
        P[i+1]=j;
    }
}
int main() {
    scanf("%d",&T);
    while(T--) {
        scanf("%d",&n);
        scanf("%s",a+1);
        Pre();
        int ans=n%10007;
        for(int i=0; i<=n; i++)
            ans=(ans+(P[i]==0?0:1))%10007;
        //P[i]有值代表当前后缀有前缀出现,也就是有前缀在后面出现,个数增加
        printf("%d\n",ans);
        memset(P,0,sizeof(P));
    }
    return 0;
}

POJ3080

题目大意:给出多个(不大于10)长度为60的字符串,求出它们的最大连续公共子串

思路:以第一个为基准,将第一个的所有后缀去匹配其他字符串,获得是否出现以及最大长度,之后获得最大长度的最小值,详见代码

代码

#include <iostream>
#include <cstring>
#include <cstdlib>
#include <cstdio>
using namespace std;
int T,m,P[1212];
char pattern[1212],input[20][1212],t[1212];
void Pre() {//预处理P数组
    int j=0,len=strlen(pattern+1);
    P[1]=0;
    for(int i=1; i<len; i++) {
        while(j>0&&pattern[i+1]!=pattern[j+1])
            j=P[j];
        if(pattern[i+1]==pattern[j+1])
            j++;
        P[i+1]=j;
    }
}
int KMP() {
    Pre();
    int Min=9999,j=0;
    for(int k=2; k<=m; k++) {//对其他串KMP
        int M=-9999;
        for(int i=0; i<60; i++) {
            while(j>0&&input[k][i+1]!=pattern[j+1])
                j=P[j];
            if(input[k][i+1]==pattern[j+1])
                j++;
            M=max(M,j);//求最大匹配数
        }
        Min=min(M,Min);//求最大的最小
    }
    return Min;
}
int main() {
    scanf("%d",&T);
    while(T--) {
        scanf("%d",&m);
        int res=-9999;
        for(int i=1; i<=m; i++)//录入数据
            scanf("%s",input[i]+1);
        for(int i=0; i<=57; i++) {
            strcpy(pattern+1,input[1]+1+i);//以第一个串的后缀为基准在其他串中查找
            int tmp=KMP();
            if(tmp>res||(tmp==res&&strcmp(t,pattern+1)>0)) {
                res=tmp;
                strncpy(t,pattern+1,tmp);
            }//获得最值,长度相同就按字典序取
        }
        if(res>=3)
            printf("%s\n",t);
        else
            printf("no significant commonalities\n");
        memset(t,0,sizeof(t));
        memset(P,0,sizeof(P));
        memset(pattern,0,sizeof(pattern));
    }
    return 0;
}

POJ3541

题目大意:给出一个01串T,再给出一个01串S,判断S通过循环右移位异或能否得到T(如S为1010,循环移位一位得到0101,异或为1111)

思路:本题常用的想法为求出S所有的循环移位然后各自异或,有更简单的方法,由题可知, T = S 1 x o r S 2 T=S_1xorS_2 T=S1xorS2,T已知,对于每个循环移位串 S 1 S_1 S1,如果存在一个循环移位串 S 2 S_2 S2在S的循环移位中,那么显然有先前式子成立,S的循环移位串可以用S+S来构造,即将S自我拼接,问题便转换为在2S中查找 S 2 S_2 S2,使用KMP即可

代码

#include <iostream>
#include <cstdlib>
#include <cstdio>
#include <cstring>
using namespace std;
int m,P[121212];
char a[121212],b[121212],t[121212];
void Pre() {
    int j=0;
    P[1]=0;
    for(int i=1; i<m; i++) {
        while(j>0&&t[i+1]!=t[j+1])
            j=P[j];
        if(t[i+1]==t[j+1])
            j++;
        P[i+1]=j;
    }
}
bool KMP() {
    int j=0;
    for(int i=0; i<2*m; i++) {
        while(j>0&&b[i+1]!=t[j+1])
            j=P[j];
        if(b[i+1]==t[j+1])
            j++;
        if(j==m)
            return 1;
    }
    return 0;
}
int main() {
    while(~scanf("%s%s",a+1,b+1)) {
        m=strlen(b+1);
        strncpy(b+m+1,b+1,m*sizeof(char));//延长b作为主串被查找
        bool flag=0;
        for(int j=0; j<m; j++) {//将a与循环得到的串异或,判断另一串是否在延长的b中
            if(flag)
                break;
            for(int i=1; i<=m; i++)//获得异或结果
                t[i]='0'+((a[i]-'0')^(b[i+j]-'0'));
            Pre();
            flag=KMP();
            memset(P,0,sizeof(P));
        }
        memset(t,0,sizeof(t));
        if(flag)
            printf("Yes\n");
        else
            printf("No\n");
    }
    return 0;
}

总结

KMP算法是单模字符串匹配的常用算法,效率很高,但是不容易理解和掌握,构造的P数组是关键,可以和字典树构成AC自动机

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值