KMP详解
对于这个链接,几个关键要点:
要点1.
S[5]肯定跟P[0]失配。为什么呢?
因为在之前第4步匹配中,我们已经得知S[5] = P[1] = B,而P[0] = A,即P[1] != P[0],故S[5]必定不等于P[0],所以回溯过去必然会导致失配。
那有没有一种算法,让i 不往回退,只需要移动j 即可呢?
要点2.
next 数组各值的含义:
代表当前字符之前的字符串中,有多大长度的相同前缀后缀。
例如如果next [j] = k,代表j 之前的字符串中有最大长度为k 的相同前缀后缀。
要点3.
对于字符串aba来说,它有长度为1的相同前缀后缀a;而对于字符串abab来说,它有长度为2的相同前缀后缀ab
要点4.
对于aba来说,第3个字符a之前的字符串ab中有长度为0的相同前缀后缀,所以第3个字符a对应的next值为0;
而对于abab来说,第4个字符b之前的字符串aba中有长度为1的相同前缀后缀a,所以第4个字符b对应的next值为1
要点5.
失配时,模式串向右移动的位数为:已匹配字符数 - 失配字符的上一位字符所对应的最大长度值
要点6.
next 数组相当于“最大长度值” 整体向右移动一位,然后初始值赋为-1。
要点7.
next的第一个有用的值绝对是-1
要点8.
next告诉我们匹配失败后要移动的下一个节点
模板:
#include <iostream>
#include <string.h>
#include <stdio.h>
using namespace std;
int next[1010];
char s[1000],p[1000];
void GetNextval()
{
int pLen = strlen(p);
next[0] = -1;
int k = -1;
int j = 0;
while (j < pLen - 1)
{
//p[k]表示前缀,p[j]表示后缀
if (k == -1 || p[j] == p[k])
{
++j;
++k;
//较之前next数组求法,改动在下面4行
if (p[j] != p[k])
next[j] = k; //之前只有这一行
else
//因为不能出现p[j] = p[ next[j ]],所以当出现时需要继续递归,k = next[k] = next[next[k]]
next[j] = next[k];
}
else
{
k = next[k];
}
}
}
int KmpSearch()
{
int i = 0;
int j = 0;
int sLen = strlen(s);
int pLen = strlen(p);
while (i < sLen && j < pLen)
{
//①如果j = -1,或者当前字符匹配成功(即S[i] == P[j]),都令i++,j++
if (j == -1 || s[i] == p[j])
{
i++;
j++;
}
else
{
//②如果j != -1,且当前字符匹配失败(即S[i] != P[j]),则令 i 不变,j = next[j]
//next[j]即为j所对应的next值
j = next[j];
}
}
if (j == pLen)
return i - j;
else
return -1;
}
int main()
{
cout<<"输入文本串s:"<<endl;
gets(s);
cout<<"输入模式串p:"<<endl;
gets(p);
GetNextval();
cout<<"模式串第一次出现的位置:"<<endl;
cout<<KmpSearch();
return 0;
}