KMP算法理解

KMP算法:

字符串查找算法。在主串中是否包含模板串,如果包含,返回包含处的起始位置。

暴力匹配字符串时,是通过逐次比较来实现。主串str, 模板串ptr, 如果相同,返回起始位置,如果不相同,从主串的下一个位置开始重新比较。

KMP算法思想:

在遇到不匹配时,不再是单纯后移一位,而是充分利用ptr串的性质(eg.重复出现的字段), 可能一次跳跃多个位置再进行下一次比较,实现最大的移动量,使复杂度由O(n*m)提高到O(n+m)。

KMP算法的核心

计算Next数组  --------  Next数组表示的是:记录当前位置之前的字符串的最长相同前缀与后缀的长度(不包括字符串本身,否则最大长度始终是字符串本身),并且表示失配后下一次跳转到的位置。

eg.若第i个位置之前的字符串当中出现了最大长度为k的相同前后缀,则Next[i] = k;

     如果前面不存在相同的前后缀,则Next[i] = 0;

计算(模板串ptr的)Next数组:

步骤:

1. Next[0] = -1, 代表0号之前没有相同的前后缀

2. i指向前缀的位置,j后缀。遇到相同的字符时, i++, j++,再比较下一个位置

3.  如果不相同,i = Next[i]

     reason:

      >1  如果在失配前的字符串中没有相同的前后缀,则j回到开头(-1)处,再次从头开始进行下一次比较,寻找最长的相同前后缀

      >2  如果前面存在相同的前后缀

 

则在前后缀当中必定各自存在相同的前后缀

 

 

 

存在相同的前后缀(1 2 3)(4 5 6), 此时i在3的后一位,j在7的后一位,失配。

在前后缀当中各自存在相同的前后缀1与3, 5与7,  四块完全相同。所以在失配时i调到1后的位置,1与7对应(重叠,不需要再次比较),在把1后的一位 i 与7后的1位 j 开始比较,从而最大限度的减少移动次数

字符串匹配

计算完成next数组之后,我们就可以利用Next数组在字符串str中寻找字符串ptr的出现位置。匹配的代码和求Next数组的代码非常相似,因为匹配的过程和求Next数组的过程其实是一样的。只不过初始化i = 0。如果匹配,分别后移一位,比较下一个。失配时,直接将字符串向后跳转Next[j]步(此时模板串ptr的前缀与主串str的后缀相同,所以直接比较下一位的字符即可,从而减少比较次数)

上代码

 

#include <stdio.h>
#include <string.h>

int Next[1003];
void CalcNext(char *s, int len) {
    int  i = -1,  j = 0; //i初始化为-1,下面现+1之后在赋值
    Next[0] = -1; //Next[0]初始化为-1,表示0号元素之前不存在相同的最大前缀和最大后缀
    while(j < len) {//if内部的判断顺序不可调换
        if (i == -1 || s[j] == s[i]) {  //i == -1代表i在起始位置,或者遇到了失配的,回到了起始位置,
                                        //则(j+1)前的最大前后缀为0,即Next[j+1] = 0;
                                        //如果遇到了相等的,则i,j分别向后移动一位,Next对应赋值为i,再比较下一个位置
            i++;
            j++;
            Next[j] = i;
        }
        else i = Next[i];   //遇到了不相等的,则向前回溯,重新比较

        printf("Next[%d] = %d\n", j, Next[j]);
    }
}
int KMP(char *a, char *b) { //KMP函数与求Next数组很相似
    int i = 0, j = 0;
    int la = strlen(a), lb = strlen(b);
    for( ; i < la && j < lb; ){
        if (j==-1||a[i] == b[j])
            j++,i++;
        else
            j = Next[j];
    }
    if(j == lb) return i-lb; //此示例返回的是包含处的起始位置下标。具体问题具体分析
    return -1;
}

int main() {
    char s[] = "abcdabcy";
    char ss[] = "abcxabcdabxabcdcdabcdabcy";
    CalcNext(s,strlen(s));
    printf("%d\n",KMP(ss, s));

    return 0;
}

此做法求Next数组时,当遇到s[i] != s[j]时,Next[j] = i,这时可能退回到的i处的字符与回退之前的i也相等的话,必然也失配,需要继续向后退]。所以优化算法直接让Next[j] = Next[i];

 

 

void CalcNext(char *s, int len) {
    int  i = -1,  j = 0;
    Next[0] = -1;
    while(j < len) {
        if (i == -1 || s[j] == s[i]) {
            i++;
            j++;
            if(s[j] != s[i])    Next[j] = i;
            else    Next[j] = Next[i];
        }
        else {
            i = Next[i];
        }
        printf("Next[%d] = %d\n", j, Next[j]);
    }
}

 

应用

1.获取匹配的个数

 

int KMP(char *a, char *b){
    int alen = strlen(a), blen = strlen(b);
    if(alen<blen) return 0;
    int ans = 0;
    if(blen == 1){
        for(int i = 0; i<alen; i++)
           if(a[i] == b[0]) ans++;

        return ans;
    }
    int i = 0, j = 0;
    CalcNext(b, blen);
    while(i < alen){
        if(j == -1 || a[i] == b[j]){
            i++;
            j++;
        }
        else    j = Next[j];
        if(j == blen){
            ans++;
            i--;
            j = Next[j-1];
        }
    }
    return ans;
}

2.判断是否存在匹配

 

 

int KMP(char *a, char *b){
    int alen = strlen(a), blen = strlen(b);
    if(alen<blen) return 0;
    if(blen == 1){
        for(int i = 0; i<alen; i++)
           if(a[i] == b[0]) return 1;

        return 0;
    }
    int i = 0, j = 0;
    CalcNext(b, blen);
    while(i < alen && j<blen){
        if(j == -1 || a[i] == b[j]){
            i++;
            j++;
        }
        else    j = Next[j];
    }
    if(j == blen)   return 1;
    return 0;
}

3.寻找首次出现的位置

 

 

 

KMP算法介绍完毕。

由于本人才疏学浅,不免有错误,欢迎大家指正。

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值