KMP算法的作用是在一个已知字符串中查找子串的位置,也叫做串的模式匹配。
大意就是可以找到 a 字符串中哪里出现了 b 字符串,同时可以记录出现了几次
如果我们拿到一道题,问 a 串中是否包含了 b 串,第一反应是双指针,双层循环,暴力搜索,但是很明显,时间复杂度很高,为了节省这个时间复杂度,引入了kmp算法,在kmp算法中,最关键的就是kmp数组,kmp[i]是记录模式串也就是 b [1,i] 中相等前后缀的最长长度,
int la=strlen(a);
int lb=strlen(b);
kmp[1]=0;
for(int i=2,j=0;i<=lb;i++){
while(j&&b[i]!=b[j+1]) j=kmp[j];
if(b[i]==b[j+1]) j++;
kmp[i]=j;
}
双指针:i 扫描模式串,j 扫描前缀。
初始化,kmp[1]=0,i=2,j=0;
1,如果b[i]和b[j+1]不匹配,让 j 回到能匹配的位置,一直找不到能匹配的位置就回到0
2,如果b[i]和b[j+1]匹配,则让 j 前进
3,kmp[i]=j
j 指针走的总步数决定 了总的执行次数,j 最多走2n步,走到底n步,不匹配的时候,最多也回退到0,所以时间复杂度是O(n)
之后就是开始两个串经行必对,做法和这个极其类似
int la=strlen(a);
int lb=strlen(b);
for(int i=1,j=0;i<=la;i++){
while(j&&a[i]!=b[j+1]) j=kmp[j];
if(a[i]==b[j+1]) j++;
if(j==lb)cout<<i-lb+1<<endl,j=kmp[j];//继续搜索下一个位置
}
注意其实两个步骤,第一个是找模板串,也就是 b 串自己内部,第二个是匹配 a b两个串
重点就是掌握kmp数组是啥意思----kmp[i]是记录模式串也就是 b [1,i] 中相等前后缀的最长长度,
以及循环里双指针 i 一直前进 j 来回跑
时间复杂度O(la+lb) la是a串长度,lb是b串长度
我们放到例题
3375 【模板】KMP
#include<cstdio>
#include<cstring>
#include<iostream>
#include<algorithm>
using namespace std;
char a[1000100],b[1000100];
int kmp[1000100];
int main()
{
scanf("%s%s",a+1,b+1);
int la=strlen(a+1),lb=strlen(b+1);
int j=0;
kmp[1]=0;
for(int i=2;i<=lb;i++)
{
while(j>0 && b[i]!=b[j+1]) j=kmp[j];//往前翻记录了有相同前缀的j
if(b[i]==b[j+1]) j++;//i匹配成功了,i继续往后
kmp[i]=j;
}
j=0;
for(int i=1;i<=la;i++)
{
while(j>0 && a[i]!=b[j+1]) j=kmp[j];
if(a[i]==b[j+1]) j++;
if(j==lb) printf("%d\n",i-lb+1),j=kmp[j];
}
for(int i=1;i<lb;i++)
printf("%d ",kmp[i]);
printf("%d",kmp[lb]);
return 0;
}