基本介绍
-
Knuth-Morris-Pratt 字符串查找算法,简称为 “KMP 算法”,常用于在一个文本串 S 内查找一个模式串 P 的出现位置。
-
命名:取Donald Knuth、Vaughan Pratt、James H. Morris 三人(发明者)的首字母
- KMP 方法算法就利用之前判断过的信息,通过一个 next 数组,保存模式串中最长公共前后子序列的长度,每次回溯时,通过 next 数组找到前面匹配过的位置。
字符串的最长公共前后缀(可理解为“最长相等前后缀”)
字符串的前缀:不包含最后一个字符的所有以第一个字符开头的连续子串。
比如字符串 “abaa” 的前缀有:a,ab,aba
后缀:不包含第一个字符的所有以最后一个字符结尾的连续子串。
比如字符串 “abaa” 的后缀有:a,aa,baa
公共前后缀:一个字符串的所有前缀连续子串和所有后缀连续子串中相等/相同的子串
比如字符串 “abaa” 的公共前后缀有:a
最长公共前后缀:所有公共前后缀的长度最长的子串
比如字符串 “abaa” 的最长公共前后缀为:a
前缀表是用来回退的,它记录了模式串与主串(文本串)不匹配的时候,模式串应该从哪里开始重新匹配。
next数组既可以就是前缀表,也可以是前缀表统一减一(右移一位,初始位置为-1)(该处主要指的是前缀表)
构造next数组
构造next数组其实就是计算模式串s,前缀表的过程。 主要有如下三步:
初始化
定义指针i——后缀末尾,j——前缀末尾。next[i] 表示 i(包括i)之前最长相等的前后缀长度(其实就是j)
next[0]=0;
int i=1;
int j=0;
处理前后缀不相同的情况
for (int i = 1; i < s.size(); i++) {
while (j >= 0 && s[i] != s[j + 1]) {// 前后缀不相同
j = next[j]; // 向前回退
}
处理前后缀相同的情况
if (s[i] == s[j + 1]) { // 前后缀相同
j++;
}
next[i] = j;
更新next数组
next[i] = j;//将j(前缀的长度)赋给next[i]
整体代码
void getNext(int* next, char* s) {
int j = -1;
next[0] = j;
for(int i = 1; i < strlen(s); i++) { // 注意i从1开始
while (j >= 0 && s[i]!=s[j+1]) { // 前后缀不相同
j = next[j]; // 向前回退
}
if (s[i] == s[j + 1]) { //前后缀相同
j++;
}
next[i] = j; // 将j(前缀的长度)赋给next[i]
}
}
实战
int strStr(char* haystack, char* needle) {
int n=strlen(haystack),m=strlen(needle);
if (m==0) return 0;
int next[m];
next[0]=0;//初始化
int j=0,i=1;
for (i=1;i<m;i++){
while (j>0 && needle[i]!=needle[j]) j=next[j-1];
if (needle[i]==needle[j]) j++;
next[i]=j;
}
for (i=0,j=0;i<n;i++){
while (j>0 && haystack[i]!=needle[j]) j=next[j-1];
if (haystack[i]==needle[j]) j++;
if (j==m) return i-m+1;
}
return -1;
}