KMP算法学习

KMP(Knuth,pratt和Morris)是这三位科学家发现的。此算法在D(n+m)的时间数量级上完成串的模式匹配操作,相对于朴素的字符串匹配,它的优点是在匹配失败的情况下,主串不需要回退。

分析下主串不需回退的原因:

在匹配失败时,模式串之前的字符和主串的都相同。我们可以利用这部已有的字符串信息来进行分析,这就是数据结构书中介绍的字串预处理求取next数组的问题。只要找出失败时模式串之前的字符串当做一个单独字符串,设为孙子串,那么求这个孙子串中两个字串的最大重合度是多少,即一个从头开始的串和另一个以孙子串的结尾为结尾的串,他们的最大重合长度是多少,比如abaabc,当匹配到c字符时失败,那么孙子串就是abaab,那么求孙子串中最大的两个字串,一个从头开始的是:ab,另一个以b结尾的字串为ab,那么这个孙子串最大的长度就是2。

由上述的孙子串既知道主串在匹配过程中也知道是abaab,但是下一个字符和字串中的c字符不相同,那么我只需要用字串的第三个字符去和主串当前的字符比较即可,而不用回退主串,同时字串也回退的尽可能的少。有人说(我自己也这样认为过),为什么主串可以不用回退,比较有没有遗漏的地方?我们可以这样想,在孙子串中,我们求得两个字串是最大的匹配,也就是说开头的那部分字串在主串中已经是匹配最长的了。这里解释的比较模糊,如果有例子将更加清楚。

下面就字串预处理求取next数组的问题,即求取孙子串中最大的两个字串匹配的长度。

这个问题是个递归问题,先给出数据结构书中的一个next数组的公式:

当j=1时,next[1]=-1,是默认的设置,因为当j时,孙子串长度为0,这里设置为-1,有的地方设置成为0,设置成-1,可能是为编程时取数组下表从0开始的。关于详细的求取next数组的步骤,我建议看数据结构(C语言版) 严蔚敏写的。

下面是我验证KMP算法测试例子:

#include<iostream>
#include<string>
using namespace std;

void getNext(int next[],char t[])
{
 int j=-1,i=0;
 int length=strlen(t);
 next[0]=-1;

 while(j < length)
 {
  if(j == -1 || t[j] == t[i])
  {
   ++j;
   ++i;
   next[i]=j;
  }
  else
   j=next[j];
 }
 //test
 for( i = 0; i<length; i++)
  cout<<"next["<<i<<"]="<<next[i]<<endl;
}

int KMP(char s[],char t[],int next[])
{
 int i=0;
 int j=0;
 int l1=strlen(s);
 int l2=strlen(t);
 cout<<l1<<endl;
 cout<<l2<<endl;
 while(i<l1&&j<l2)
 {
  if( j==-1 || s[i] == t[j])
  {
   j++;
   i++;
  }
  else
   j=next[j];
 }

 if(j>=l2)
 {
  cout<<"i="<<i<<endl;
  cout<<"j="<<j<<endl;
  return i-strlen(t);
 }
 return 0;
}

int main()
{
 char s[]="acabaabaabcacaabc";
 char t[]="aba";

 int next[100];

 getNext(next,t);

 
 cout<<KMP(s,t,next)<<"endl"<<endl;
 
 return 0;
}

 

转载于:https://www.cnblogs.com/xiaomufeng/p/3198068.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值