KMP算法学习

最新推荐文章于 2024-01-01 17:07:01 发布

weixin_30617797

最新推荐文章于 2024-01-01 17:07:01 发布

阅读量61

点赞数

原文链接：http://www.cnblogs.com/xiaomufeng/p/3198068.html

版权

KMP(Knuth,pratt和Morris)是这三位科学家发现的。此算法在D(n+m)的时间数量级上完成串的模式匹配操作，相对于朴素的字符串匹配，它的优点是在匹配失败的情况下，主串不需要回退。

分析下主串不需回退的原因：

在匹配失败时，模式串之前的字符和主串的都相同。我们可以利用这部已有的字符串信息来进行分析，这就是数据结构书中介绍的字串预处理求取next数组的问题。只要找出失败时模式串之前的字符串当做一个单独字符串，设为孙子串，那么求这个孙子串中两个字串的最大重合度是多少，即一个从头开始的串和另一个以孙子串的结尾为结尾的串，他们的最大重合长度是多少，比如abaabc，当匹配到c字符时失败，那么孙子串就是abaab，那么求孙子串中最大的两个字串，一个从头开始的是：ab，另一个以b结尾的字串为ab，那么这个孙子串最大的长度就是2。

由上述的孙子串既知道主串在匹配过程中也知道是abaab，但是下一个字符和字串中的c字符不相同，那么我只需要用字串的第三个字符去和主串当前的字符比较即可，而不用回退主串，同时字串也回退的尽可能的少。有人说（我自己也这样认为过），为什么主串可以不用回退，比较有没有遗漏的地方？我们可以这样想，在孙子串中，我们求得两个字串是最大的匹配，也就是说开头的那部分字串在主串中已经是匹配最长的了。这里解释的比较模糊，如果有例子将更加清楚。

下面就字串预处理求取next数组的问题，即求取孙子串中最大的两个字串匹配的长度。

这个问题是个递归问题，先给出数据结构书中的一个next数组的公式：

当j=1时，next[1]=-1,是默认的设置，因为当j时，孙子串长度为0，这里设置为-1，有的地方设置成为0，设置成-1，可能是为编程时取数组下表从0开始的。关于详细的求取next数组的步骤，我建议看数据结构（C语言版）严蔚敏写的。

下面是我验证KMP算法测试例子：

#include<iostream>
#include<string>
using namespace std;

void getNext(int next[],char t[])
{
int j=-1,i=0;
int length=strlen(t);
next[0]=-1;

while(j < length)
{
  if(j == -1 || t[j] == t[i])
  {
   ++j;
   ++i;
   next[i]=j;
  }
  else
   j=next[j];
}
//test
for( i = 0; i<length; i++)
  cout<<"next["<<i<<"]="<<next[i]<<endl;
}

int KMP(char s[],char t[],int next[])
{
int i=0;
int j=0;
int l1=strlen(s);
int l2=strlen(t);
cout<<l1<<endl;
cout<<l2<<endl;
while(i<l1&&j<l2)
{
  if( j==-1 || s[i] == t[j])
  {
   j++;
   i++;
  }
  else
   j=next[j];
}