kmp算法详解+next数组求解

 KMP算法是一种高效的字符串匹配算法,其核心思想是利用已经匹配的部分信息,尽可能减少匹配次数。KMP算法通过预处理阶段计算一个最大前后缀长度数组(也称为“部分匹配表”或“失败函数”),用于在匹配失败时确定模式串应该跳转到哪个位置进行下一次匹配。

下面是一个KMP算法的图解示例:

假设模式串为"ABCDAB",文本串为"ABCABCDAB"。

  1. 预处理阶段:

首先,计算最大前后缀长度数组。对于模式串中的每个位置i,最大前后缀长度[i]表示模式串中从位置0到位置i-1的最大前后缀长度。前缀指除最后一个字符除外,字符串的所有头部字串。后缀指除第一个字符外,字符串的素有尾部子串。

对于模式串"ABCDAB":

  • 对于位置0,最大前后缀长度为0(因为没有前后缀)。
  • 对于位置1,最大前后缀长度为0(因为前缀为"A",后缀为"A"的长度为1,但是模式串中没有两个连续的"A")。
  • 对于位置2,最大前后缀长度为0(因为前缀为"AB",后缀为"AB"的长度为2,但是模式串中没有两个连续的"AB")。
  • 对于位置3,最大前后缀长度为0(因为前缀为"ABC",后缀为"ABC"的长度为3,但是模式串中没有两个连续的"ABC")。
  • 对于位置4,最大前后缀长度为0(因为前缀为"ABCD",后缀为"ABCD"的长度为4,但是模式串中没有两个连续的"ABCD")。
  • 对于位置5,最大前后缀长度为1(因为前缀为"ABCDA",后缀为"BCDA"的长度为4,但是模式串中没有两个连续的"BCDA",所以取前一个最大前后缀长度为1)。
  • 对于位置6,最大前后缀长度为2(因为前缀为"ABCDAB",后缀为"BCDAB"的长度为5,但是模式串中没有两个连续的"BCDAB",所以取前一个最大前后缀长度为2)。

因此,最大前后缀长度数组为[0, 0, 0, 0, 0, 1, 2]。

  1. 匹配阶段:

接下来,开始进行字符串匹配。从模式串的第一个字符开始,依次与文本串中的字符进行匹配。

第一次匹配失败(模式串的第一个字符'A'与文本串的第一个字符'A'不匹配),此时根据最大前后缀长度数组可知,模式串应该跳转到位置1进行下一次匹配。

第二次匹配失败(模式串的第二个字符'B'与文本串的第二个字符'B'不匹配),此时根据最大前后缀长度数组可知,模式串应该跳转到位置2进行下一次匹配。

以此类推,直到匹配成功或模式串中的所有字符都匹配完毕。

kmp算法的代码实现

int kmpsuanfa(char str1[8], char str2[], int sz1, int sz2) {
    int count = 0;
    int i = 0;
    int j = 0;
    while (i <= sz1) {
        // 如果当前字符匹配成功,将i和j都向后移动一位
        if (str2[j] == str1[i])
        {
            ++i;
            ++j;
        }
        else
        {
            // 如果匹配失败,根据KMP算法,将i和j回溯到指定位置
            // i退回到之前匹配成功的下一个位置
            // j退回到模式串的开头位置
            i = i - j + 1;
            j = 0;
        }
        // 当模式串全部匹配完成,即j超过了模式串的长度时,说明匹配成功
        // 此时,i和j需要更新,以继续寻找下一个出现位置
        if (j > sz2 - 1)
        {
            i = i - j + 2;
            j = 0;
            count++; // 匹配次数自增
        }
    }
    return count; // 返回总匹配次数
}

完整测试代码

#include <stdio.h>
// KMP算法,计算模式串在主串中的出现次数
int kmpsuanfa(char str1[8], char str2[], int sz1, int sz2) {
    int count = 0;
    int i = 0;
    int j = 0;
    while (i <= sz1) {
        // 如果当前字符匹配成功,将i和j都向后移动一位
        if (str2[j] == str1[i])
        {
            ++i;
            ++j;
        }
        else
        {
            // 如果匹配失败,根据KMP算法,将i和j回溯到指定位置
            // i退回到之前匹配成功的下一个位置
            // j退回到模式串的开头位置
            i = i - j + 1;
            j = 0;
        }
        // 当模式串全部匹配完成,即j超过了模式串的长度时,说明匹配成功
        // 此时,i和j需要更新,以继续寻找下一个出现位置
        if (j > sz2 - 1)
        {
            i = i - j + 2;
            j = 0;
            count++; // 匹配次数自增
        }
    }
    return count; // 返回总匹配次数
}
int main() {
    char str1[8] = { 'a', 'b', 'a', 'b', 'a', 'b', 'a', 'b' };//主串
    char str2[] = { 'a', 'b','a' };//模式串
    int sz1 = sizeof(str1) / sizeof(str1[0]);//计算str1的长度
    int sz2 = sizeof(str2) / sizeof(str2[0]);//计算str2的长度
    int sum = kmpsuanfa(str1, str2, sz1, sz2); // 计算str1中有多少个str2字符
    printf("主串中有%d个模式串", sum); // 输出匹配的次数
    return 0;
}

用str1[8] = { 'a', 'b', 'a', 'b', 'a', 'b', 'a', 'b' };//主串
   str2[] = { 'a', 'b','a' };//模式串

测试结果为

求next数组值的代码如下

void getnext(char str1[],int sz1, int next[])
{
    int i = 1;
    int j = 0;
    next[1] = 0;
    while (i < sz1)
    {
        if (j==0 || str1[i] ==str1[j])
        {
            ++i;
            ++j;
            next[i] = j;
        }
        else
        {
            j = next[j];
        }
    }
}

还是需要测试一下的

#include <stdio.h>
void getnext(char str1[],int sz1, int next[])
{
    int i = 1;
    int j = 0;
    next[1] = 0;
    while (i < sz1)
    {
        if (j==0 || str1[i] ==str1[j])
        {
            ++i;
            ++j;
            next[i] = j;
        }
        else
        {
            j = next[j];
        }
    }
}
int main() {
    char str1[8] = { 'a', 'b', 'a', 'b', 'a', 'b', 'a', 'b' };//主串
    int next[10];
    getnext(str1, sz1,next);
    printf("\nstr1的next数组为:");
    for (int k = 1; k < sz1+1; k++)
        printf("%d ", next[k]);
    return 0;
}

用str1[8] = { 'a', 'b', 'a', 'b', 'a', 'b', 'a', 'b' }测试的结果为

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
KMP算法是一种字符串匹配算法,用于在一个文本串S内查找一个模式串P的出现位置。其中,KMP算法的关键在于求解模式串P的next数组。下面详细介绍next数组的含义、求解方法以及应用。 1. 含义 next数组是一个长度为m(m为模式串P的长度)的数组,其中next[i]表示P[0:i]这个子串中,最长的既是其前缀又是其后缀的字符串的长度。特别地,next[0]=-1,next[1]=0。例如,当P="abab"时,其next数组为[-1,0,0,1]。 2. 求解 next数组求解可以通过动态规划的方式实现。具体来说,在求解next[i]时,假设已知next[0:i-1]的值,我们需要找到一个最长的既是P[0:i-1]的前缀,也是P[1:i]的后缀的字符串。这个字符串可以通过比较P[0:j-1]和P[i-j:i-1]来得到,其中j=next[i-1]+1。 如果P[j]==P[i],那么next[i]=j;否则,我们需要找到一个更短的字符串。此时,我们可以利用next数组的性质,从next[j]开始向前查找,直到找到一个P[k]等于P[i]为止,然后令next[i]=k。如果一直找到k=-1还没有找到,那么next[i]=0。 3. 应用 有了next数组之后,我们就可以利用KMP算法在文本串S中查找模式串P的出现位置。具体来说,我们维护两个指针i和j,分别指向S和P的当前位置。如果P[j]==S[i],那么i和j都向后移动一位;否则,我们利用next数组来决定j的下一步移动位置。具体来说,如果next[j]=-1,或者next[j]<i,则令j=0,i不变;否则,令j=next[j]。这样,我们可以在O(n+m)的时间复杂度内完成匹配。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

努力敲代码的小火龙

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值