KMP算法的原理
力扣28. 实现 strStr()
查找字符串haystack中是否包含needle字符串
以字符串haystack:aabaabaaf为和needle:aabaaf为例。
暴力查找法
如果我们用暴力查找法的话需要遍历一遍haystack字符串,每遍历一个字符就要遍历整个needle字符串,所以时间复杂度是O(m*n),m和n分别是两个字符串的长度。
KMP查找算法
当出现字符不匹配的时候,我们可以确定部分字符已经遍历过了,不需要再遍历,大大节约了时间,我们只需要遍历一遍haystack和needle字符串即可,时间复杂度是O(m+n)。
当如上图匹配到b/f时,发生不匹配的情况,如果使用暴力匹配法的话,我们是需要将指针指向haystack下一个字符和needle的第一个字符,从新开始逐个匹配。
当使用kmp算法,发生图上不匹配的情况时,我们只需要查找next表,其前一个字符‘a’的next值为2,我们将指针移动到needle数组的下标为2的位置,继续匹配即可。
最大相同前后缀
前缀:所有以第一个字符为开头并且不包含最后一个字符的连续子串。
后缀:所有以最后一个字符为结尾并且不包含第一个字符的连续子串。
Next数组的实现
next数组的含义
next数组,next[i]记录了下标 [0, i] 的字符串中,有多大长度的相同前缀和后缀。
如上图所示,aabaaf的每一个前缀子串对应的最大相同前后缀,就是我们所求的next数组。
当i=0时,字符串为a,没有前缀或者后缀,所以就是next[0] = 0。
当i=1时,字符串为aa,最大相同前缀和后缀都为a,所以next[1] = 1。
当i=2时,字符串为aab,前缀和后缀都没有相同的,所以next[2] = 0。
当i=3时,字符串为aaba,最大相同前缀和后缀都为a,所以next[3] = 1。
当i=4时,字符串为aabaa,最大相同前缀和后缀都为aa,所以next[4] = 2。
当i=5时,字符串为aa,前缀和后缀没有相同的,所以next[5] = 0。
next数组的实现
public int[] getNext(String needle){
// 创建一个于needle长度相同的数组,用于记录[0,i]的最长相同前后缀的长度。
int[] next = new int[needle.length()];
// 定义两个指针i和j,其中i用于表示后缀的最后一个字符的下标,j表示前缀最后一个字符的下标
// 初始化j为0,并初始化next[0] = j;因为一个字符没有前缀后缀所以为0。
int j = 0;
next[0] = j;
// 开始循环匹配
for (int i = 1; i < next.length; i++) {
// 当前后缀不同时,我们将j退到next[j-1],
// 退到两者相同或者j-1=0的时候就停止。
while (j > 0 && needle.charAt(i) != needle.charAt(j)) {
j = next[j-1];
}
// 如果两者相同,就说明最大的前缀后缀的长度+1,我们让j++;
if (needle.charAt(i) == needle.charAt(j)) j++;
// 更新next[i],前缀的长度正好就是j
next[i] = j;
}
return next;
}
KMP算法的实现
public int strStr(String haystack, String needle) {
if (haystack.length() < needle.length()) return -1;
int[] next = getNext(needle);
int j = 0;
for (int i = 0; i < haystack.length(); i++) {
while (j > 0 && haystack.charAt(i) != needle.charAt(j)) {
j = next[j-1];
}
if (haystack.charAt(i) == needle.charAt(j)) j++;
if (j == needle.length()) return i - needle.length() + 1;
}
return -1;
}