通过模式串中的有效字符信息来消除主串指针的回溯,提高算法匹配效率
主串指针回溯:出现在BF算法中,每次匹配不成功使i=i-j+1;j=0;匹配太过繁琐
有效字符信息:部分字符的重复信息
即存在一个最大值k(可能有多个,取max),使得t[0] - t[k-1] = t[j-k] - t[j-1] 令next[j] = k;
求next[ ]数组
1 public static int[] getNext(String ps) { 2 3 char[] p = ps.toCharArray(); 4 5 int[] next = new int[p.length]; 6 7 next[0] = -1; 8 9 int j = 0; 10 11 int k = -1; 12 13 while (j < p.length - 1) { 14 15 if (k == -1 || p[j] == p[k]) { 16 17 next[++j] = ++k; 18 19 } else { 20 21 k = next[k]; 22 23 } 24 25 } 26 27 return next; 28 29 }
怎样求呢,先令初值,t[0] = -1,t[1]= 0
之后,一个重要的点:
如果已知next[j] = k并且t[j] = t[k]; 则t[j+1] = k+1;
那么问题又来了,如果不相等呢?
k=next[k]
这里便是疑问所在?
对此我的思考是:
next[j] = k : t[o] --t[k-1] ==t[j-k] --t[j-1]
next[k] ==m: t[0] --t[m-1]==t[j-m]--t[j-1]
并且可知上一行的一式包含下一行的二式,也就是二式和一式的后几个字符是一样的
那么进行k = next[k]的回溯即可以找到一个较小的相同字串
再进行下一个字符的判等,不行就继续回溯,以此求出next数组