字符串的匹配查找中 使用暴力匹配算法的性能太差,回溯的代价太大。这时我们可以使用KMP算法
KMP算法的核心在于部分匹配值(next数组)的查找,next数组主要用来保存子字符串中前缀表达式和后缀表达式中最长的公共子序列长度。
字符串的前缀表达式和后缀表达式:例如AAABA
前缀表达式为 A , AA , AAA , AAAB
后缀表达式为 AABA , ABA , BA , A
他们的公共的最长子序列为2
前缀指针 i=1; 后缀指针 j=0; (可以对应代码理解)
如果指针对应的字符相等时,i 和j同时后移,并记录进next数组,如果不等时,next数组记录0,并回溯 j 的值 ,直到相等或结束循环。如此循环直到遍历完字符串。最终得到的next数组部分匹配值为:
[0, 1, 2, 0, 1]
代码:
/**
*
* @param str1 长字符串
* @param str2 短字符串 要查找的字符串
* @param next 部分匹配值表
* @return
*/
public static int kmpSearch(String str1, String str2, int[] next) {
for (int i = 0, j = 0; i < str1.length(); i++) {
while (j > 0 && str1.charAt(i) != str2.charAt(j)) {
j = next[j - 1];
}
if (str1.charAt(i) == str2.charAt(j)) {
j++;
}
if (j == str2.length()) { //匹配的长度等于子字符串的长度就是查找到匹配的值 返回下标
return i - j + 1;
}
}
return -1;
}
部分匹配值代码:也是KMP算法的核心和难点
//获取子字符串的部分匹配值 即短字符串
public static int[] kmpNext(String dest) {
int[] next = new int[dest.length()];
next[0] = 0;
for (int i = 1, j = 0; i < dest.length(); i++) { //i代表的是后缀字符串 j为前缀
while (j > 0 && dest.charAt(i) != dest.charAt(j)) {//核心点 难点
j = next[j - 1]; //回溯
}
if (dest.charAt(i) == dest.charAt(j)) {
j++;
}
next[i] = j;
}
return next;
}