KMP算法:
字符串查找算法。在主串中是否包含模板串,如果包含,返回包含处的起始位置。
暴力匹配字符串时,是通过逐次比较来实现。主串str, 模板串ptr, 如果相同,返回起始位置,如果不相同,从主串的下一个位置开始重新比较。
KMP算法思想:
在遇到不匹配时,不再是单纯后移一位,而是充分利用ptr串的性质(eg.重复出现的字段), 可能一次跳跃多个位置再进行下一次比较,实现最大的移动量,使复杂度由O(n*m)提高到O(n+m)。
KMP算法的核心
计算Next数组 -------- Next数组表示的是:记录当前位置之前的字符串的最长相同前缀与后缀的长度(不包括字符串本身,否则最大长度始终是字符串本身),并且表示失配后下一次跳转到的位置。
eg.若第i个位置之前的字符串当中出现了最大长度为k的相同前后缀,则Next[i] = k;
如果前面不存在相同的前后缀,则Next[i] = 0;
计算(模板串ptr的)Next数组:
步骤:
1. Next[0] = -1, 代表0号之前没有相同的前后缀
2. i指向前缀的位置,j后缀。遇到相同的字符时, i++, j++,再比较下一个位置
3. 如果不相同,i = Next[i]
reason:
>1 如果在失配前的字符串中没有相同的前后缀,则j回到开头(-1)处,再次从头开始进行下一次比较,寻找最长的相同前后缀
>2 如果前面存在相同的前后缀
则在前后缀当中必定各自存在相同的前后缀
存在相同的前后缀(1 2 3)(4 5 6), 此时i在3的后一位,j在7的后一位,失配。
在前后缀当中各自存在相同的前后缀1与3, 5与7, 四块完全相同。所以在失配时i调到1后的位置,1与7对应(重叠,不需要再次比较),在把1后的一位 i 与7后的1位 j 开始比较,从而最大限度的减少移动次数
字符串匹配
计算完成next数组之后,我们就可以利用Next数组在字符串str中寻找字符串ptr的出现位置。匹配的代码和求Next数组的代码非常相似,因为匹配的过程和求Next数组的过程其实是一样的。只不过初始化i = 0。如果匹配,分别后移一位,比较下一个。失配时,直接将字符串向后跳转Next[j]步(此时模板串ptr的前缀与主串str的后缀相同,所以直接比较下一位的字符即可,从而减少比较次数)
上代码
#include <stdio.h>
#include <string.h>
int Next[1003];
void CalcNext(char *s, int len) {
int i = -1, j = 0; //i初始化为-1,下面现+1之后在赋值
Next[0] = -1; //Next[0]初始化为-1,表示0号元素之前不存在相同的最大前缀和最大后缀
while(j < len) {//if内部的判断顺序不可调换
if (i == -1 || s[j] == s[i]) { //i == -1代表i在起始位置,或者遇到了失配的,回到了起始位置,
//则(j+1)前的最大前后缀为0,即Next[j+1] = 0;
//如果遇到了相等的,则i,j分别向后移动一位,Next对应赋值为i,再比较下一个位置
i++;
j++;
Next[j] = i;
}
else i = Next[i]; //遇到了不相等的,则向前回溯,重新比较
printf("Next[%d] = %d\n", j, Next[j]);
}
}
int KMP(char *a, char *b) { //KMP函数与求Next数组很相似
int i = 0, j = 0;
int la = strlen(a), lb = strlen(b);
for( ; i < la && j < lb; ){
if (j==-1||a[i] == b[j])
j++,i++;
else
j = Next[j];
}
if(j == lb) return i-lb; //此示例返回的是包含处的起始位置下标。具体问题具体分析
return -1;
}
int main() {
char s[] = "abcdabcy";
char ss[] = "abcxabcdabxabcdcdabcdabcy";
CalcNext(s,strlen(s));
printf("%d\n",KMP(ss, s));
return 0;
}
此做法求Next数组时,当遇到s[i] != s[j]时,Next[j] = i,这时可能退回到的i处的字符与回退之前的i也相等的话,必然也失配,需要继续向后退]。所以优化算法直接让Next[j] = Next[i];
void CalcNext(char *s, int len) {
int i = -1, j = 0;
Next[0] = -1;
while(j < len) {
if (i == -1 || s[j] == s[i]) {
i++;
j++;
if(s[j] != s[i]) Next[j] = i;
else Next[j] = Next[i];
}
else {
i = Next[i];
}
printf("Next[%d] = %d\n", j, Next[j]);
}
}
应用
1.获取匹配的个数
int KMP(char *a, char *b){
int alen = strlen(a), blen = strlen(b);
if(alen<blen) return 0;
int ans = 0;
if(blen == 1){
for(int i = 0; i<alen; i++)
if(a[i] == b[0]) ans++;
return ans;
}
int i = 0, j = 0;
CalcNext(b, blen);
while(i < alen){
if(j == -1 || a[i] == b[j]){
i++;
j++;
}
else j = Next[j];
if(j == blen){
ans++;
i--;
j = Next[j-1];
}
}
return ans;
}
2.判断是否存在匹配
int KMP(char *a, char *b){
int alen = strlen(a), blen = strlen(b);
if(alen<blen) return 0;
if(blen == 1){
for(int i = 0; i<alen; i++)
if(a[i] == b[0]) return 1;
return 0;
}
int i = 0, j = 0;
CalcNext(b, blen);
while(i < alen && j<blen){
if(j == -1 || a[i] == b[j]){
i++;
j++;
}
else j = Next[j];
}
if(j == blen) return 1;
return 0;
}
3.寻找首次出现的位置
KMP算法介绍完毕。
由于本人才疏学浅,不免有错误,欢迎大家指正。