KMP算法
原始问题
看str1中有无子串和str2相同
解决方法
笨办法
str1从0开始,一步一步对str2,直到完全对上或者遍历完str1
复杂度分析 O(N*M) //两个串长度
KMP
-
建立概念
在一个字符串中,一个字符之前的字符串最长前缀和最长后缀匹配长度。
eg:a b c a b c d
d为字符,其之前的字符串为a b c a b c
长度取1:前缀 a,后缀为c
长度取2:前缀 a b,后缀为b c
长度取3:前缀 a b c,后缀为a b c
长度取4:前缀 a b c a,后缀为c a b c
长度取5:前缀 a b c a b,后缀为b c a b c
长度取6:不可,限定前缀不包含最后一个字符后缀不包含第一个字符对一串字符的每一个字符进行上述求长度操作得一数组
eg a b a b a c
next -1 0 0 1 2 3 -
next数组
next数组保存着str2的字符串最长前缀和最长后缀匹配长度,若直到x位置不匹配,则可根据x的next数组中的
值得到x之前多少个字符和已经匹配完成的str1中前几个字符相等,这样可以直接跳过i-x这几个字符。 -
求解next数组
next数组求解过程就是一个“往前跳”的过程。
eg 求解k的next值
a | b | a | b | c | a | b | a | b | a | k |
---|---|---|---|---|---|---|---|---|---|---|
-1 | 0 | 0 | 1 | 2 | 0 | 1 | 2 | 3 | 4 | 3 |
a | b | a | b | |||||||
- a的next值为4,所以指针指向4,所对应的str[4]为c
- c != a,所以不能在a的基础上+1得到k的next值,所以去找c的next值
- c的next值为2 ,所以指针指向2,所对应的str[2]为a,和k前字符相同,所以k的next值为4所对应的next值+1 ,即为2+1 = 3。
代码如下
getNextArray(char str2[], int next []){
if(str2.length == -1){
return -1;
}
next[0] = -1;
next[1] = 0;
int i = 2;
int cn = 0;
while (i < str2.length) {
if (str2[i-1] = str2[cn]) {
next[i++] = cn++;
}else if (cn > 0){
cn = next[cn]; //这一步使得cn到达了最长前缀的下一个
}else {
next[i++] = 0;
}
}
}
- KMP算法主要过程和思想
next数组保存着str2的字符串最长前缀和最长后缀匹配长度,若直到x位置不匹配,则可根据x的next数组中的
值得到x之前多少个字符和已经匹配完成的str1中前几个字符相等,这样可以直接跳过i-x这几个字符。
str1
a | b | c | a | b | c | t |
---|---|---|---|---|---|---|
i | j | x |
str2
a | b | c | a | b | c | a |
---|---|---|---|---|---|---|
0 | y |
第一次匹配匹配到了t != a。
a的next值为3,所以定位到了第四个字符a
第二次匹配时为
a | b | c | a | b | c | t | |||
---|---|---|---|---|---|---|---|---|---|
a | b | c | a | b | c | a |
此时 t != a,且a的next值为0
若next值为0且仍未配上,则x之前的所有都不要了,直接从x+1(t下一个字符) 和str2的0重新开始
//前面需要对输入字符串进行一些处理转为字符串数组
while(i1 < str1.length && i2 < str2.length){
if(str1[i1] == str2[i2]){
i1++;
i2++;
}else
{
if (next[i2] == -1) {
i1++;
}else{
i2 = next[i2];
}
}
}
return i2 == str2.length ? i1 - i2 : -1 ;
-
kmp的实质:
否定了i-j位置之间可能配出str2的可能性(x != y)
str1str1 i … k … j … x str2 0 y 假设k位置可以配出str2,则k-x必和str2等量的前缀相同,在先前的匹配中,k-x是y之前的一后缀,则其最长前后缀匹配长度应该为k-x之间的长度,比next数组中的值大,故不可出现i-j之间配出str2。
至此kmp核心部分基本结束,只需要一些简单的补充代码即可完成。