这个算法主要的内容是next数组的实现,next数组的含义如下:
next数组的含义就是一个固定字符串的最长前缀和最长后缀相同的长度。
对于目标字符串ptr,ababaca,长度是7,所以next[0],next[1],next[2],next[3],next[4],next[5],next[6]分别计算的是 a,ab,aba,abab,ababa,ababac,ababaca的相同的最长前缀和最长后缀的长度。由于a,ab,aba,abab,ababa,ababac,ababaca的相同的最长前缀和最长后缀是“”,“”,“a”,“ab”,“aba”,“”,“a”,所以next数组的值是[-1,-1,0,1,2,-1,0],这里-1表示不存在,0表示存在长度为1,2表示存在长度为3。这是为了和代码相对应。
以下是Java版本的实现
public static int[] getNext( String s ) {
char[] c = s.toCharArray();
int[] next = new int[c.length];
next[0] = -1;
int k = -1;
for ( int q = 1; q < c.length; q++ ) {
while ( k > -1 && c[k+1] != c[q] ) {
k = next[k];
}
k = ( c[k+1] == c[q] )? k+1: k;
next[q] = k;
}
return next;
}
public static int kmp( String str, String pattern ) {
int[] next = getNext(pattern);
char[] s = str.toCharArray();
char[] p = pattern.toCharArray();
int k = -1;
for ( int i = 0; i < s.length; i++ ) {
while ( k > -1 && p[k+1] != s[i] ) {
k = next[k];
}
k = ( p[k+1] == s[i] )? k+1: k;
if ( k == p.length - 1 ) {
return i - p.length + 1;
}
}
return -1;
}