看了July写的从头到尾彻底理解KMP后,虽然自己理解还不是很深刻,但是还是想总结一下KMP算法的主要思想。
1.定义
Knuth-Morris-Pratt 字符串查找算法,简称为 “KMP算法”,常用于在一个文本串S内查找一个模式串P 的出现位置,这个算法由Donald Knuth、Vaughan Pratt、
James H. Morris三人于1977年联合发表,故取这3人的姓氏命名此算法。
2.算法流程
(1)如果j = -1,或者当前字符匹配成功(即S[i] == P[j]),都令i++,j++,继续匹配下一个字符;
(2)如果j != -1,且当前字符匹配失败(即S[i] != P[j]),则令 i 不变,j = next[j]。此举意味着失配时,模式串P相对于文本串S向右移动了j - next [j] 位。
next 数组各值的含义:代表当前字符之前的字符串中,有多大长度的相同前缀后缀。例如如果next [j] = k,代表j 之前的字符串中有最大长度为k 的相同前缀后缀。
此也意味着在某个字符失配时,该字符对应的next 值会告诉你下一步匹配中,模式串应该跳到哪个位置(跳到next [j] 的位置)。如果next [j] 等于0或-1,
则跳到模式串的开头字符,若next [j] = k 且 k > 0,代表下次匹配跳到j 之前的某个字符,而不是跳到开头,且具体跳过了k 个字符。
从上述可以看出,要实现KMP算法,关键在于求解next数组,要求解next数组关键在于求解s串中的相同前缀后缀。
2.1 next数组求解
在从头到尾彻底理解KMP中,作者已经把next数组的求解说得很详细了,我自己就偷懒不写了。
3.代码实现
#include <iostream>
#include <string>
using namespace std;
//next数组求解
void Getnext(string p,int next[])
{
int plen;
plen = p.length();
next[0] = -1;
//k表示最长相同前缀后缀长度值
int k = -1;
int j = 0;
while (j < plen - 1)
{
//p[k]表示前缀,p[j]表示后缀
if (k == -1 || p[j] == p[k])
{
++j;
++k;
if (p[j] != p[k])
next[j] = k;
else
//不能出现p[j] = p[ next[j]],所以当出现时需要继续递归,k = next[k] = next[next[k]]
next[j] = next[k];
}
else
{
k = next[k];
}
}
}
//KMP算法
int KmpMatch(string s, string p,int* next)
{
int slen, plen;//字符串s,p的长度
slen = s.length();
plen = p.length();
int i=0, j=0;
while (i < slen && j < plen)
{
//如果j = -1,或者当前字符匹配成功(即S[i] == P[j]),i++,j++
if (j == -1 || p[j] == s[i])
{
i++;
j++;
}
else
{
//如果j != -1,且当前字符匹配失败(即S[i] != P[j]),则令 i 不变,j = next[j]
//next[j]即为j所对应的next值
j = next[j];
}
}
if (j == plen)
{
return i - j;
}
else
{
return -1;
}
}
int main()
{
string s, p;
int next[100];
cout << "请输入s串:";
cin >> s;
cout << "请输入p串:";
cin >> p;
int result;
//计算next数组
Getnext(p,next);
//kmp算法
result = KmpMatch(s,p,next);
if (result != -1)
{
cout << "字符串p位于s串的第" << result+1 << "位\n";
}
else
{
cout << "在字符串s中无法找到字符串p!\n";
}
system("pause");
return 0;
}