字符串学习（KMP算法）

最新推荐文章于 2022-09-11 00:33:05 发布

Bluesky_lt

最新推荐文章于 2022-09-11 00:33:05 发布

阅读量1k

点赞数 7

分类专栏：字符串

本文链接：https://blog.csdn.net/Bluesky_lt/article/details/113386079

版权

KMP算法字符串匹配模式匹配 next数组算法优化

关键词由CSDN通过智能技术生成

字符串专栏收录该内容

2 篇文章 0 订阅

订阅专栏

对于字符串问题一直只知道使用模板，脱离了模板题就不知道该怎样更改板子。
一定是没有理解清楚算法本身的含义，所以这几天详细学习了一下各个算法本身及其一些比较普遍的拓展。希望能够开阔以后的解题思路。

KMP算法详解

人眼优化字符串匹配

我们串中的位置指针i,j来说明，第一个位置下标以0开始，我们称为第0位。如果是人为来寻找的话，肯定不会再把i移动回第1位，因为主串匹配失败的位置(i=3)前面除了第一个A之外再也没有A了，我们为什么能知道主串前面只有一个A？因为我们已经知道前面三个字符都是匹配的！（这很重要）。移动过去肯定也是不匹配的！有一个想法，i可以不动，我们只需要移动j即可，如下图：

在这里插入图片描述
大牛们是无法忍受“暴力破解”这种低效的手段的，于是他们三个研究出了KMP算法。其思想就如同我们上边所看到的一样：“利用已经部分匹配这个有效信息，保持i指针不回溯，通过修改j指针，让模式串尽量地移动到有效的位置。”

所以，整个KMP的重点就在于当某一个字符与主串不匹配时，我们应该知道j指针要移动到哪？

接下来我们自己来发现j的移动规律：

在这里插入图片描述

如图：C和D不匹配了，我们要把j移动到哪？显然是第1位。为什么？因为前面有一个A相同。

在这里插入图片描述

如下图也是一样的情况：

在这里插入图片描述

可以把j指针移动到第2位，因为前面有两个字母是一样的：

在这里插入图片描述

至此我们可以大概看出一点端倪，当匹配失败时，j要移动的下一个位置k。存在着这样的性质：最前面的k个字符和j之前的最后k个字符是一样的。

如果用数学公式来表示是这样的

P[0 ~ k-1] == P[j-k ~ j-1]

这个相当重要，如果觉得不好记的话，可以通过下图来理解：

在这里插入图片描述
弄明白了这个就应该可能明白为什么可以直接将j移动到k位置了。

因为:

当T[i] != P[j]时

有T[i-j ~ i-1] == P[0 ~ j-1]

由P[0 ~ k-1] == P[j-k ~ j-1]

必然：T[i-k ~ i-1] == P[0 ~ k-1]

KMP算法的性质

KMP算法是利用待匹配的子串自身的这种性质，来提高匹配速度。该性质在许多其他中版本的解释中还可以描述成：若子串的前缀集和后缀集中，重复的最长子串的长度为k，则下次匹配子串的j可以移动到第k位(下标为0为第0位)。我们将这个解释定义成最大重复子串解释。

在“aba”中，前缀集就是除掉最后一个字符’a’后的子串集合{a,ab}，同理后缀集为除掉最前一个字符a后的子串集合{a,ba}，那么两者最长的重复子串就是a，k=1；

分解成计算机的步骤，则是如下的过程：

1）找出前缀pre，设为pre[0~m]；

2）找出后缀post，设为post[0~n]；

3）从前缀pre里，先以最大长度的s[0~m]为子串，即设k初始值为m,跟post[n-m+1～n]进行比较：

如果相同，则pre[0~m]则为最大重复子串，长度为m，则k=m;

如果不相同，则k=k-1；缩小前缀的子串的一个字符，在跟后缀的子串按照尾巴对齐，进行比较，是否相同。

如此下去，直到找到重复子串，或者k没找到。

求next数组

好，接下来就是重点了，怎么求这个（这些）k呢？因为在P的每一个位置都可能发生不匹配，也就是说我们要计算每一个位置j对应的k，所以用一个数组next来保存，next[j] = k，表示当T[i] != P[j]时，j指针的下一个位置。
另一个非常有用且恒等的定义，因为下标从0开始的，k值实际是j位前的子串的最大重复子串的长度。请时刻牢记next数组的定义，下面的解释是死死地围绕着这个定义来解释的。

代码示例1

void Getnext(int next[],String t) {
   int j=0,k=-1;
   next[0]=-1;
   while(j<t.length-1) {
      if(k == -1 || t[j] == t[k]) next[++j] = ++k;
      else k = next[k];
   }
}

先来看第一个：当j为0时，如果这时候不匹配，怎么办？

在这里插入图片描述

像上图这种情况，j已经在最左边了，不可能再移动了，这时候要应该是i指针后移。所以在代码中才会有next[0] = -1;这个初始化。

如果是当j为1的时候呢？
显然，j指针一定是后移到0位置的。因为它前面也就只有这一个位置了~~~

在这里插入图片描述

下面这个是最重要的，请看如下图：

在这里插入图片描述

请仔细对比这两个图。

我们发现一个规律：

当P[k] == P[j]时，

有next[j+1] == next[j] + 1

那如果P[k] != P[j]呢？比如下图所示：

在这里插入图片描述

像这种情况，如果你从代码上看应该是这一句：k = next[k];为什么是这样子？你看下面应该就明白了。

在这里插入图片描述

现在你应该知道为什么要k = next[k]了吧！像上边的例子，我们已经不可能找到[ A，B，A，B ]这个最长的后缀串了，但我们还是可能找到[ A，B ]、[ B ]这样的前缀串的。所以这个过程像不像在定位[ A，B，A，C ]这个串，当C和主串不一样了（也就是k位置不一样了），那当然是把指针移动到next[k]啦。

记忆点

1）k值是j位前的子串的最大重复子串的长度。

2）数组next来保存，每一个位置j对应的k

next数组求解算法优化

最后，来看一下上边的算法存在的缺陷。来看第一个例子：

在这里插入图片描述

显然，当我们上边的算法得到的next数组应该是[ -1，0，0，1 ]

所以下一步我们应该是把j移动到第1个元素咯：

在这里插入图片描述

不难发现，这一步是完全没有意义的。因为后面的B已经不匹配了，那前面的B也一定是不匹配的，同样的情况其实还发生在第2个元素A上。

显然，发生问题的原因在于P[j] == P[next[j]]。

修改代码示例

void Getnext(int next[],String t)
{
   int j=0,k=-1;
   next[0]=-1;
   while(j<t.length-1) {
      if(k == -1 || t[j] == t[k]) {
         if(t[++j]==t[++k])//当两个字符相同时，就跳过
            next[j] = next[k];
         else
            next[j] = k;
      }
      else k = next[k];
   }
}

KMP算法

int KMP(String s,String t)
{
   int next[MaxSize],i=0;j=0;
   Getnext(t,next);
   while(i<s.length&&j<t.length) {
      if(j==-1 || s[i]==t[j]) {
         i++;
         j++;
      }
      else j=next[j];               //j回退
   }
   if(j>=t.length)
       return (i-t.length);         //匹配成功，返回子串的位置
   else
      return (-1);                  //没找到
}

参考博文：https://www.cnblogs.com/dusf/p/kmp.html
https://blog.csdn.net/dark_cy/article/details/88698736

Bluesky_lt

关注

7
点赞
踩
31

收藏

觉得还不错? 一键收藏
3
评论
字符串学习（KMP算法）

对于字符串问题一直只知道使用模板，脱离了模板题就不知道该怎样更改板子。一定是没有理解清楚算法本身的含义，所以这几天详细学习了一下各个算法本身及其一些比较普遍的拓展。希望能够开阔以后的解题思路。KMP算法详解人眼优化字符串匹配我们串中的位置指针i,j来说明，第一个位置下标以0开始，我们称为第0位。下面看看，如果是人为来寻找的话，肯定不会再把i移动回第1位，因为主串匹配失败的位置(i=3)前面除了第一个A之外再也没有A了，我们为什么能知道主串前面只有一个A？因为我们已经知道前面三个字符都是匹配的！（这很
复制链接

扫一扫

专栏目录