KMP算法的作用是高效匹配字符串。
当我们要在A字符串中查找出现B字符串的位置时,首先想到的可能是暴力匹配(朴素字符串匹配),使用两层循环:
//暴力匹配法
public class strStr {
public static void main(String[] args) {
String A="ABBABBABABAAABABAAA";
String B="ABBABAABABAA";
int result=-1;
for(int i=0;i<A.length();i++){
int j=0;
for(j=0;j<B.length();j++){
if(i+j>=A.length()) {break;}
if((A.charAt(i+j)!=B.charAt(j))){
break;
}
}
if(j==B.length()){
result=i;
break;
}
}
System.out.println(result);
}
}
这种方法的不足之处是,得逐个循环A中的字符进行对比,而且当B的前端有很多字符匹配成功,后面有字符匹配失败时,下个循环还是要逐个匹配所有字符。
a="ABBABBABABAAABABAAA"
b="ABBABAABABAA"
这种方法的时间复杂度很大。
KMP算法利用了B串本身的特征,大致步骤是找到B串每个子串(除了本身)的最长公共前后缀,当B串的第n个字符与A的第m个字符不匹配时,则用B串的第i+1个字符与A的第m个字符开始匹配,其中i的大小为子串B(n-1)对应的最长公共前后缀的长度。
具体讲解可以看:https://www.bilibili.com/video/av49930100?from=search&seid=6540719253469972045
这里就不累述,但是有几点思考:
1. KMP算法的根本原理是什么?
KMP算法利用了B串本身的特征,当B串的第n位匹配不上时,接下来,就要寻找能与n位前面的i个字符匹配上的,也就是之前找到的B串的前i位,将B串的前i位与A串n位置的前i位对齐是一定匹配的,所以只需要从第i+1的位置继续匹配。
2. 为什么找的是公共前后缀,中间有部分和后面相同,可以将中间的几位移到后面位置吗?
可以验证一下这个方法,比如
A串为ABXXABYYABB...
B串为ABXXABYYABA...
其中XX/YY表示任意长度的任意字符,现在可以看到最后一位不匹配,而且B串最长公共前后缀是AB,但是中间还有一个AB,如果此时将中间的那个AB移到后面开始比较:
ABXXABYYABB...
ABXXABYYABA...
对齐的话是这种效果,想开始比较最后一位B与Y,那么就是有把握B串的Y前面的ABXXAB与A串的ABYYAB相同,也就是XX要与YY相同。那么B串的最长公共前后缀就不是AB,而是ABXXAB,这与B串的最长公共前后缀是AB冲突,所以不行。
极端情况下,B串的所有最长公共前后缀长度都为0,那么时间复杂度就和暴力穷举法相同,为m*n
KMP代码://download.csdn.net/download/Michaelia_hu/12005131