1. 解决的问题:解决字符串匹配问题。(换言之,判断一个字符串“原串”里面是否包含另一个字符串“模式串”)
2. 简介: Knuth-Morris-Pratt(简称KMP)算法,是三个发明者名字首字母。
3. 举例:原串 str = ABAFCDABAFDCC,索引为 i,模式串 tar = ABAFD,索引为 j
这里需要先说一下暴力算法:
比较两个字符串的第一个元素 str[1] 和 tar[1],一样,继续比较下一个str[2] 和 tar[2]:
第二个字符一样,继续比较下一个:
一直到第五个元素,发现不一样,这时模式串整体后移一位,重新比较模式串的第一个元素与原串的第二个元素是否一样:
总结:以上就是暴力算法,只要发现不一样的字符,模式串就要整体后移一位,然后再从头逐个比较,效率很低。KMP算法是后移多位,然后从模式串的索引为 j 的字符继续比较。
在说KMP算法之前需要先了解几个概念:前缀、后缀、最大相等前后缀长度。
前缀:除最后一个字符的其他字符的组合。
后缀:除第一个字符的其他字符的组合。
以ABFAB为例,
A的前缀和A的后缀都是空集,所以最大相等前后缀长度为0;
AB的前缀有:A;AB的后缀有:B;没有交集,所以最大相等前后缀长度为0;
ABF的前缀有:A、AB;ABF的后缀有:F、BF;没有交集,所以最大相等前后缀长度为0;
ABFA的前缀有:A、AB、ABF;ABFA的后缀有:A、FA、BFA;交集是A,所以最大相等前后缀长度为1;
ABFAB的前缀有:A、AB、ABF、ABFA;ABFAB的后缀有:B、AB、FAB、BFAB;
最后一行表示的是截止每个字符的字符串的最大相等前后缀长度,我们使用一个数组next来存储这些值。那么ABFAB的next数组就是{0,0,0,1,2}
4. KMP算法:
为什么KMP算法直接移动到这里呢?这就是第一个关键点:
移动位数 = j - next[j - 1],j = j - 移动位数;
代码如下:
public static int strStr(String haystack, String needle) {
int i = 0;
int j = 0;
int N = 1;//移动位数
if (haystack.equals(needle) || needle.length() == 0) return 0;
if (needle.length() < 1 || haystack.length() < needle.length()) return -1;
int[] next = getNext(needle);
while (i < haystack.length()) {
if (haystack.charAt(i) == needle.charAt(j)) {
i++;
j++;
if(j == needle.length()) {
return i - j;
}
} else {
//needle移动
if (j != 0) {
N = j - next[j-1];
j = j - N;
} else {
N = 1;
i++;
}
}
}
return -1;
}
5. 另一个关键点就是算出字符串的next 数组。我们知道任何字符串的next[0]都是0;直接看代码,如果哪里不清楚,欢迎留言讨论。
public static int[] getNext(String needle) {
int[] next = new int[needle.length()];
int j = 0; // j 表示模式串中将要匹配的位置;
next[0] = 0;
int i = 1; // i 表示字符串 needle 的索引、也是next数组的索引,因为next[0] = 0( needle 的第一个字符的最大相等前后缀长度是0), 所以这里i从1开始;
while (i < needle.length()) {
if (needle.charAt(i) == needle.charAt(j)) { // 相等时
j++;
next[i] = j;
i++;
} else if(j == 0) { //不相等且j == 0时
next[i] = j;
i++;
} else { //不相等且j != 0时
j = next[j - 1];
}
}
return next;
}