今天看到了KMP算法,就看了一下,记录一下自己对KMP算法的理解,也算是加深一点印象吧。
首先是一个部分匹配值的概念。
部分匹配值是指的,模式串的前缀和后缀共有元素的长度。其实很好理解,前缀是除最后一个字符外的头部的集合,后缀是除最前一个字符外的尾部的集合
比如ABCDABD:
A的前缀后缀均为空集,部分匹配值为0;
AB的前缀是{"A"}, 后缀是{"B"},部分匹配值为0;
ABC的前缀是{”A", "AB"}, 后缀是{"BC", "C"},部分匹配值为0;
ABCD的前缀是{"A", "AB", "ABC"}, 后缀是{"BCD", "CD", "D" },部分匹配值为0;
ABCDA的前缀是{"A", "AB", "ABC", "ABCD"}, 后缀是{"BCDA", "CDA", "DA", "A"},部分匹配值为1;
ABCDAB的前缀是{"A", "AB", "ABC", "ABCD", "ABCDA"}, 后缀是{"BCDAB", "CDAB", "DAB", "AB", "B"}, 部分匹配值为2;
ABCDABD的前缀是{"A", "AB", "ABC", "ABCD", "ABCDA", "ABCDAB"}, 后缀是{"BCDABD", "CDABD", "DABD", "ABD", "BD", "D"}, 部分匹配值为0;
以上可以得出每个位置的部分匹配值。这以后我们就可以得出我们所说的next数组,如下:next[] = {-1, 0, 0, 0, 0, 1, 2};(即部分匹配值向右移动一位,初值赋值)
在实际比对中,对于串S,模式串P,“如果j != -1,且当前字符匹配失败(即S[i] != P[j]),则令 i 不变,j = next[j]”,所以相当于模式串向右移动的位数为j - next[j](j - next[j] )。
我们可以假设一个母串为BBC ABCDAB ABCDABCDABDE,则通过我们普通的字符串匹配,到达如下图的情况时,next[j] = 2; 需要j = 2;也就是模式串相对母串向右移动j - next[j] = 4位。
附上代码:
int KMPSearch(char* s, char* p)
{
int i = 0;
int j = 0;
int sLen = strlen(s);
int pLen = strlen(p);
while (i < sLen && j < pLen)
{
//①如果j = -1,或者当前字符匹配成功(即S[i] == P[j]),都令i++,j++
if (j == -1 || s[i] == p[j])
{
i++;
j++;
}
else
{
//②如果j != -1,且当前字符匹配失败(即S[i] != P[j]),则令 i 不变,j = next[j]
//next[j]即为j所对应的next值
j = next[j];
}
}
if (j == pLen)
return i - j;
else
return -1;
}
参考文献:
http://www.ruanyifeng.com/blog/2013/05/Knuth%E2%80%93Morris%E2%80%93Pratt_algorithm.html
http://blog.csdn.net/v_july_v/article/details/7041827