KMP算法详解

一、KMP算法的功能、实现原理以及和BF(暴力)算法的比较

0)算法功能

KMP算法,又叫快速匹配算法,根本目的是对两个字符串进行匹配,看其中一个字符串是否包含另一个字符串,如果包含则返回包括的起始位置。

1)实现原理及与BF算法的比较

KMP算法本省就是再BF算法的基础上进行的改进。

举个例子,有A和B两个字符串,A字符串的字符为abcabcd,B字符串的字符为abcd。我们分别用BF算法和KMP算法的逻辑对其进行处理。

 BF算法:BF算法又叫暴力算法,顾名思义是暴力的将子串中的字符与主串中的字符一一匹配,从而返回主串中全部的包含子串的起始位置。如图,指针i指向A字符串的首位,指针j指向B字符串首位,依次比较A、B字符串的字符,若相等则i++,j++(指针i、j向后移动一位)直到匹配到不相同的字符,例子中是3位。这时BF算法的解决办法是将指针i移到第二位,即1位;指针j移到第首位,即0位,之后再次循环,一个字符一个字符的比较。

 KMP算法:KMP算法的初始步骤和BF算法相同,都是指针i和j指向字符串AB首地址,再依次比较。不同的是再第一次碰到不同的字符时对指针i和j的处理。

从BF算法中我们可以明显看到没有必要让串 B 中的 'a' 与主串中的字符 'b' 和 'c' 一一匹配(它们绝不可能相同),而是直接去匹配失败位置处的串A的字符 'a'处。所以再遇到不匹配的字符时,KMP算法的逻辑方法是指针i不动,指针j向前移动一个合适的位置。之后再进行字符的匹配。

 这样看下来,KMP算法明显比BF算法有更高的运行效率。同时这也表现出来KMP算法逻辑的核心就在与如何确定指针j所要移动的那个合适的位置。

二、KMP算法的核心部分(next[]数组)

由上述的例子我们可以看出KMP算法的核心在于在每次遇到不匹配时,指针j重定向到子串的哪个位置。同时不难看出指针j重定向到第几位只和子串有关系,和主串无关。换句话说,不论主串如何变换,只要给子串,则匹配失败后子串重定向到的位数就已经确定了

不仅如此,模式串中任何一个字符都可能导致匹配失败,因此串中每个字符都应该对应一个数字,用来表示匹配失败后模式串移动的距离。

我们为了获得子串指针重定向的位置而引入了next[]数组。给每个子串配备一个next[]数组,用于存储子串中每个字符对应指针 j 重定向的位置(也就是存储模式串的数组下标)。

模式串中各字符对应 next 值的计算方式是,取该字符前面的字符串(不包含自己),其前缀字符串和后缀字符串相同字符的最大个数再 +1 就是该字符对应的 next 值。

/*前缀字符串指的是位于模式串起始位置的字符串;后缀字符串指的是位于串结尾处的字符串。*/

利用代码实现next的逻辑如下,刚开始时令 j 指向子串中第 1 个字符,i 指向第 2 个字符。接下来,对每个字符做如下操作:
如果 i 和 j 指向的字符相等,则 i 后面第一个字符的 next 值为 j+1,同时 i 和 j 做自加 1 操作,为求下一个字符的 next 值做准备。

void Next(char*T,int *next){
    next[1]=0;
    next[2]=1;
    int i=2;
    int j=1;
    while (i<strlen(T)) {
        if (j==0||T[i-1]==T[j-1]) {
            i++;
            j++;
            next[i]=j;
        }else{
            j=next[j];
        }
    }
}

三、具体例程的实现

题目:假设主串 A 为 "ababcabcacbab",模式串 B 为 "abcac"

#include <stdio.h>
#include <string.h>
void Next(char*T,int *next){
    int i=1;
    next[1]=0;
    int j=0;
    while (i<strlen(T)) {
        if (j==0||T[i-1]==T[j-1]) {
            i++;
            j++;
            next[i]=j;
        }else{
            j=next[j];
        }
    }
}
int KMP(char * S,char * T){
    int next[10];
    Next(T,next);//根据模式串T,初始化next数组
    int i=1;
    int j=1;
    while (i<=strlen(S)&&j<=strlen(T)) {
        //j==0:代表模式串的第一个字符就和当前测试的字符不相等;S[i-1]==T[j-1],如果对应位置字符相等,两种情况下,指向当前测试的两个指针下标i和j都向后移
        if (j==0 || S[i-1]==T[j-1]) {
            i++;
            j++;
        }
        else{
            j=next[j];//如果测试的两个字符不相等,i不动,j变为当前测试字符串的next值
        }
    }
    if (j>strlen(T)) {//如果条件为真,说明匹配成功
        return i-(int)strlen(T);
    }
    return -1;
}
int main() {
    int i=KMP("ababcabcacbab","abcac");
    printf("%d",i);
    return 0;
}

KMP算法讲解推荐:【完整版】终于有人讲清楚了KMP算法,Java语言C语言实现_哔哩哔哩_bilibili

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值