KMP算法是由这三位学者发明的:Knuth,Morris和Pratt,所以取了三位学者名字的首字母。KMP主要应用在字符串匹配上,KMP的经典用法是字符串匹配,即看字符串A中第一次出现字符串B的位置,其算法思想是当出现某处字符串不匹配时,可以知道一部分之前已经匹配的文本内容,利用这些信息避免字符串B从头再去做匹配了。KMP算法的关键之一是求出字符串B的前缀表。
前缀表
前缀表:字符串下标 i 及其之前的字符串中最大长度的前缀后缀(最长公共前后缀)。注意要包含 i 下标的字符。
最长公共前后缀
字符串的前缀是指不包含最后一个字符的所有以第一个字符开头的连续子串。后缀是指不包含第一个字符的所有以最后一个字符结尾的连续子串。
以上图为例,表示的是下标4的前缀表的情况。字符串aabaa的最长相等的前缀和后缀字符串是子字符串aa ,因为找到了最长相等的前缀和后缀,匹配失败的位置是后缀子串的后面,那么我们找到与其相同的前缀的后面从新匹配就可以了。所以前缀表具有告诉我们当前位置匹配失败,跳到之前已经匹配过的地方的能力。
在求完前缀表后,每当某个字符匹配不上时,看前一个字符的前缀表值,就可以知道从哪里继续匹配。
next数组
next数组可以是前缀表,也可以是前缀表统一减1(右移一位,初始位置为-1),两种做法都可以。
构造next数组
第一种、next数组等于前缀表的情况:
i表示下标i处的后缀,j表示前缀,因此i从1开始,j从0开始。
1、初始化next数组
j = 0;
next[0] = 0;
2、处理前后缀不同情况
while (j > 0 && s[i] != s[j]) { // 前后缀不相同了
j = next[j - 1]; // 向前回退
}
3、处理前后缀相同情况
if (s[i] == s[j]) {
j++;
}
next[i] = j;
第二种、next数组等于前缀表统一减1的情况:
1、初始化next数组,next[i] 表示 i(包括i)之前最长相等的前后缀长度(其实就是j)
j = -1;
next[0] = j;
2、处理前后缀不相同情况
当s[i]不等于s[j+1]时,找j+1前一个元素在next数组中的值,
while (j >= 0 && s[i] != s[j + 1]) { // 前后缀不相同了
j = next[j]; // 向前回退
}
3、处理前后缀相同情况
当s[i]等于是s[j+1]时,同时移动i和j,并将j赋给next[i]。
使用next数组做匹配
next数组等于前缀表的情况:
定义i指向文本串起始位置,j指向模式串起始位置,并且j初始为0,比较s[i]和t[j],如果不相同,就找下一个匹配位置,j = next[j - 1],如果相同,i和j同时向后移动。如果j指向了模式串末尾,就说明匹配成功。
next数组等于前缀表统一减1的情况:
定义i指向文本串起始位置,j指向模式串起始位置,并且j初始为-1,比较s[i]和t[j+1],如果不相同,就找下一个匹配位置,j = next[j],如果相同,i和j同时向后移动。如果j指向了模式串末尾,就说明匹配成功。
力扣题目
实现 strStr()。
Java代码如下:
class Solution {
public int strStr(String haystack, String needle) {
int[] next = new int[needle.length()];
getNext(needle, next);
int j = 0;
for (int i = 0; i < haystack.length(); i ++) {
while (j > 0 && haystack.charAt(i) != needle.charAt(j)) {
j = next[j - 1];
}
if (haystack.charAt(i) == needle.charAt(j)) {
j ++;
}
if (j == needle.length()) {
return i - j + 1;
}
}
return -1;
}
//获取next数组
public void getNext(String s, int[] next) {
int j = 0;
next[0] = 0;
for (int i = 1; i < s.length(); i ++) {
while (j > 0 && s.charAt(i) != s.charAt(j)) {
j = next[j - 1];
}
if (s.charAt(i) == s.charAt(j)){
j ++;
}
next[i] = j;
}
}
}
- 时间复杂度
n为文本串长度,m为模式串长度,时间复杂度O(m+n),比两层for的时间复杂度O(m×n)好很多。 - 空间复杂度
next数组是额外空间,空间复杂度O(m)。