字符串经典的匹配算法,时间算法复杂度为(n+m)。说到kmp算法不得不提朴素的字符串匹配算法,在朴素字符串匹配算法中,每次当匹配不相等时就回溯到开始匹配字符串的下一个字符,重新开始匹配。这种算法的时间复杂度为(n*m)。
kmp算法之所有能够将时间复杂度将为(n+m),是因为kmp算法不是每次都回溯到字符串开始匹配的位置下一个位置重新开始匹配,而是利用前面匹配的信息,进行跳跃式匹配。
先给一个示例:
在pattern[4] = 'c' source [4] = 'a', pattern[4] != source[4], 那么接下来source[4]该和谁匹配呢,因为在pattern 中pattern[0,1] = ab = pattern[2,3],图中画红线部分。所以可以直接用pattern[2] 与 source[4]匹配。也就是说pattern[0-3]的前缀pattern[01] = ab 与后缀pattern[23] = ab 是相等的。
在一般情况中,source[i] != pattern[j] 时,j应该是谁?在kmp中用next数组来表示j = next[j];下面一步步解析一下:
1、当next[j] = j - 1时;
source: s1 s2 s3 s4.....si-j si-j+1 si-j+2 .........si-1 si si+1..............
pattern: p0 p1 p2 ...........pj-1 pj
p0 p1 ...........pj-2 pj-1
所以:pattern[0-j-2] = pattern[1-j-1];
2、当next[j] = j - 2时;
source: s1 s2 s3 s4.....si-j si-j+1 si-j+2 .........si-1 si si+1..............
pattern: p0 p1 p2 ...........pj-1 pj
p0 ...........pj-3 pj-2
所以:pattern[0-j-3] = pattern[2-j-1];
3、当next[j] = 2时;
source: s1 s2 s3 s4.....si-j si-j+1 si-j+2 ................si-1 si si+1..............
pattern: p0 p1 p2 .......pj-2 pj-1 pj
p0 p1 p2
所以:pattern[0,1] = pattern[j-2, j-1];4、当next[j] = 1时;
source: s1 s2 s3 s4.....si-j si-j+1 si-j+2 .........si-1 si si+1..............
pattern: p0 p1 p2 .........pj-1 pj
p0 p1
所以:pattern[0] = pattern[j-1];5、当next[j] = 0时;
source: s1 s2 s3 s4.....si-j si-j+1 si-j+2 .........si-1 si si+1..............
pattern: p0 p1 p2 ........pj-1 pj
p0
现在清楚next数组了吧,下面是应该怎么求next数组;假设在求pattern的next数组中,前面的下标匹配到j,后面的下标匹配到i,且从pattern[0-j] = pattern[i - j ....i]
那么在i++,j++之后呢,如果pattern[i] != pattern[j], 因为在之前pattern[i] = pattern[j],所以他们的前缀相同,所以next[i] = j;
如果pattern[i] == pattern[j]时,前缀一样,当前字符也一样,那么只能看pattern[j]的前缀是怎么处理的,即next[i] = next[j];
代码:
void build_next(char const *ptrn, int plen, int *next)
{
int i = 0;
next[i] = -1;
int j = -1;
while (i < plen - 1) {
if (j == -1 || ptrn[i] == ptrn[j]) {
i++;
j++;
if (ptrn[i] != ptrn[j]) {
next[i] = j;
} else {
next[i] = next[j];
}
} else {
j = next[j];
}
}
}
int kmp_search(char const *src, int lenA, char const *ptrn, int lenB,int *next, int pos)
{
int i = pos;
int j = 0;
while (i < lenA && j < lenB) {
if (j == -1 || src[i] == ptrn[j]) {
i++;
j++;
} else {
j = next[j];
}
}
if (j >= lenB)
return i - lenB;
else
return -1;
}