字符串算法——KMP匹配及Next数组

最新推荐文章于 2024-04-11 23:34:56 发布

old_Bai

最新推荐文章于 2024-04-11 23:34:56 发布

阅读量524

点赞数

分类专栏：笔记文章标签：算法字符串

本文链接：https://blog.csdn.net/old_Bai/article/details/107981313

版权

笔记专栏收录该内容

16 篇文章 0 订阅

订阅专栏

KMP是单模匹配算法，即在一段长度为n的文本串中搜索一个长度为m的模式串，算法复杂度为O(n+m)，差不多是这类算法能达到的最优复杂度。

朴素的模式匹配算法

在处理这类问题时，最简单的方法便是暴力匹配，从第一个匹配到的字符开始逐个匹配是否相同，如不相同则回溯到下一位再进行匹配，这种算法在匹配到的位置靠前时也不会显得太慢，但是一旦模式串出现在文本串的后面甚至最末尾，那算法的复杂度将会退化为O(nm)，整体都会拖慢很多。

在这里插入图片描述
在这种情况下，再来看KMP算法的精妙之处。

KMP算法

KMP是一个可以在任何情况下都可以达到复杂度为O(n+m)的算法，其核心便在于KMP在进行匹配之前预处理了模式串，通过计算模式串的特征可以使得在进行匹配的时候能够跳过一些字符串，达到快速匹配。
那KMP是具体怎么操作的呢，如图：
在这里插入图片描述
我们在拿到模式串P的时候再开一个额外的数组Next[]，Next[]数组中存放的便是模式串P每一位的最长公共前后缀数，什么是公共前后缀，公共前后缀指的是以当前字符为结尾的非前缀子串和前缀串匹配的最长长度。
以图为例，对于第五个字符b而言，以b结尾的非前缀子串为bcab,cab,ab,b，前缀子串为abca,abc,ab,a，在位数匹配的情况下再看字符是否逐个匹配，b!=a,ab=ab,cab!=abc,bcab!=abca,因此匹配到的最长长度为2，即有Next[5]=2，如此将每个位上的字符都先进行预处理，即可获得Next[]数组。
但是如果在获得Next[]数组时使用枚举的话难度也会大大提升，因此对于这个问题在这里我们可以先假设：

j = Next [ j ]
j - 1 = Next [ j - 1 ]
j = Next [ j - 1 ] + 1

因此可以得到第j位的Next[]值为上一位的Next[]值+1，如果不匹配则再回溯到Next [ j - 1 ]的位置查看是否匹配，便为 j = Next [ Next [ j - 1 ] ] + 1,如此匹配下去，即可获得j的Next[]值。
代码如下：

void getnext(int next[], const char str[])
{
    int m = strlen(str);
    int j = 0, k = -1;
    next[0] = -1;
    while (j < m)
    {
        if (k == -1 || str[j] == str[k])
        {
            j++;
            k++;
            next[j] = k;
        }
        else
            k = next[k]; //匹配失败则返回
    }
}

既然得到了Next[]，那KMP的模式匹配也可以开始使用了，具体方法便为，在模式匹配失败的位置不选择回溯，而是将模式串移动到Next值的位置，即用前面与其一样开头的字符来代替这个位置，即可继续进行匹配：
在这里插入图片描述
在这里a是第三位，Next [3] = 1（图中以下标计算），因此在失败的a的位置将与其匹配的a放到这里即可再继续进行匹配，大致如下：

在这里插入图片描述

具体代码操作如下：

 int kmp(char str1[], char str2[], int n, int m)
 {
     int i = 0, j = 0;
     while (i < n && j < m)
     {
         if (j == -1 || str1[i] == str2[j])
         {
             i++;
             j++;
         }
         else
             j = Next[j];
     }
     if (j == m)
         return (i - m + 1);
     return -1;
 }