简介
就是几个科学家觉着暴力匹配字符串太磨叽,在一块研究了个新算法,这三个前辈分别是D.E.Knuth,J.H.Morris以及V.R.Pratt,所以这个算法叫做克努特-莫里斯-普拉特算法,简称kmp算法
核心思想
主字符串挨个递增不回溯,子串引入一个next数组,用来记录当字符不匹配时子串应该回溯到的合适位置
算法过程
其实KMP算法也是从暴力匹配算法基础上改进的一个算法,所以我们先从暴力匹配过程中了解kmp算法的过程
举例:
主串 S = “abcdefgab”
模式串 T = “abcdex”
暴力匹配算法过程
i表示主串位置,j表示模式串位置
-
前五位匹配,第六位字符不匹配,此时i=5, j=5
a b c d e f g a b
a b c d e x -
此时i=1, ,j=0;
a b c d e f g a b
a b c d e x
3.i=2, ,j=0;
a b c d e f g a b
a b c d e x
4.i=3, ,j=0;
a b c d e f g a b
a b c d e …
5.i=4, ,j=0;
a b c d e f g a b
a b c d … -
i=5, j=0;
a b c d e f g a b
a b c …
在上面的匹配过程中,子串中 “a”与后面的“bcdex”均不相等,即
T[0] != T[1]
T[0] != T[2]
T[0] != T[3]
T[0] != T[4]
在第一步的时候已经判断过
S[0]==T[0]
S[1]==T[1]
S[2]==T[2]
S[3]==T[3]
S[4]==T[4]
所以就有
T[0] != S[1]
T[0] != S[2]
T[0] != S[3]
T[0] != S[4]
再然后2,3,4,5步完全没必要啊,有了步骤1(注意这里是前提),我直接走步骤6就好了呀
(为啥6要保留呢,因为T[0] !=T[5] 而在第一步T[5] != S[5] 所以没法知道T[0]和S[0]的关系)
从步骤1到6,主串i值又回到了5,它不回溯,只考虑j值就行
前面说道判断了T[0]和后面的字符都不相等,如果存在相等的可咋办
看这个例子
主串 S = “abcababca”
模式串 T = “abcabx” -
前五位匹配,第六位字符不匹配,此时i=5, j=5
a b c a b a b c a
a b c a b x -
i=1, ,j=0;
a b c a b a b c a
a b c a b x
3.i=2, ,j=0;
a b c a b a b c a
a b c a b x
4.i=3, ,j=0;
a b c a b a b c a
a b c a b x
5.i=4, ,j=1;
a b c a b a b c a
a b c a b x
6.i=5, ,j=2;
a b c a b a b c a
a b c a b x
依照我们第一种比较的方法所以2,3,步骤是可以省掉的这里不再赘述
到了4,5也是同样的道理,子串T[0]==T[3] 第一步T[3]==S[3] 所以T[0]==S[3]
最后直接到第六步
总结 综合1,2两个例子我们发现一旦出现不匹配的情况,由不匹配的那一位来决定子串应该跳到合适的位置,
至于跳到什么位置,由子串的重复程度来决定,并且是不匹配字符之前的子串重复程度,重复度越高,跳的越远即距离首字符的位置,
(后面讲对这种高重复度的模式再进行一次优化)
KMP算法引入了next数组用来记录没一个字符如果跟主串不匹配了,我该跳到什么位置
位置的确定:子串前缀后缀的集合中最长公共串的长度
这里引入两个概念
前缀:不包含最后一个字符且必须包含第一个字符的顺序串
比如:ABDD的前缀A,AB,ABD
后缀:不包含第一个字符且必须以最后一个字符结尾的顺序串
比如:ABDD的后缀D,DD,BDD
根据总结
1,2两个例子对应的next值为
a b c d e x
next[i] -1 0 0 0 0 0
其中
子串第一位a以前没有字符串,无意义用-1表示
第二位b以前的字符串为“a”,无前缀,无后缀,没有公共串,用0表示
第三位c以前的字符串为“ab”,前缀“a”,后缀“b”,没有相同子串,表示为0
依次类推
a b c a b a b c a
next[i] -1 0 0 0 1 2 1 2 3
其中
子串第一位a以前没有字符串,无意义用-1表示
第二位b以前的字符串为“a”,无前缀,无后缀,没有公共串,用0表示
第三位c以前的字符串为“ab”,前缀“a”,后缀“b”,没有相同子串,表示为0
第四位a以前的字符串为“abc”,前缀“a”,“ab”,后缀"c",“bc”,没有相同串,为0
第五位b以前的字符串为“abca”,前缀"a",“ab”,“abc”,后缀"a",“ca”,“bca”,最长公共串为"a",长度为1,用1表示
第六位a以前的字符串为“abcab”,前缀"a",“ab”,“abc”,“abca”,后缀"b",“ab”,“cab”,“bcab”,最长公共串为"ab",长度为2,用2表示
以此类推
现在有这用一种情况
T串 a a a a c
next[i] -1 0 1 2 3
试想一下,如果这个字符串跟一个子串比较,比如在第四字符T[3]的时候不匹配
按照“a”对应的next[2]即跳到T[2]的位置然后在去与主串比较
你认为有必要吗?
肯定又是在浪费工夫,因为T[0] == T[1] == T[2] == T[3],如果T[3]不匹配了,按照这个前提就应该找与T[3]相同的值,所以如果相同那么就找到它的“父亲”,如果它“父亲”也相同的就去找它“爷爷”直到它的“祖宗”
既然是这样,我们就在刚开始遍历的时候就可以加上,如果字符的”孩子”(下一个字符)长得像它自己(T[n] == T[n+1]),就把自己的 j 给孩子(next[i] = next[j]),这样一层一层的给下去,不远多远的亲戚通过这个 j 就能直接找到祖宗了
代码如下
void getNext(char* s, int* next)
{
int len = strlen(s);
int i, j;
i = 1;
j = 0;
next[0] = -1;
next[1] = 0; //初始化
while (i < len)
{
if (j == -1 || s[i] == s[j])
{
++i;
++j;
if (s[i] == s[j])
{
next[i] = next[j];
}
else
next[i] = j;
}
else
{
j = next[j];
}
}
}
在查找匹配字符串的时候
// 返回T在S中的位置,如果没有返回-1
int indexKmp(char* S, char* T)
{
int i = 0;
int j = 0;
int slen = strlen(S);
int tlen = strlen(T);
int next[32];
int nextval[32];
getNext(T, next);
while (i < slen && j < tlen)
{
if (j == -1 || S[i] == T[j])
{
++i;
++j;
}
else
{
j = nextval[j];
}
}
if (j == tlen)
{
return i - strlen(T);
}
else
{
return -1;
}
}