【LeetCode】实现 strStr()字符串匹配 (KMP算法,BM算法,RK算法,)
1. KMP算法
KMP算法的核心是next数组的创建!。(模式串的next数组)
出现了不匹配,如果是BF(Brute Force)的主串的指针需要回到下标5处的B,而模式串指针需要回到下标0处。但KMP算法的字符串匹配有两个不同,第一是主串的指针无需回退,第二是模式串的指针只需要按照next数组中对应的数进行回退即可。
next数组中的重要知识点是字符串中的真前缀与真后缀:
字符串abbacd为例:
真前缀为{a,ab,abb,abba,abbac}
真后缀为{d,cd,acd,bacd,bbacd}
最长的相同真前后缀是:无.
而它的子串abba的最长的相同真前后缀是:a.
都是不包含原字符串本身的!
next数组:
next[0]为-1 是为了后面到模式串第一字符都不匹配主串时做的一个next标记,因为此时已经无法next数组跳跃了。
求next数组需要两个指针,一前(k)一后(j)。k是当前匹配到的真前缀最终位置,j是当前真后缀的最终位置。通过移动它们来找到最长的相同真前后缀。
(前缀是固定的,后缀是相对的)
abbaccab模式串的next数组如图:
例如k与j移动到了如下位置:
图片对于j来说,子串【0,j-1】的最长相同直前后缀分别是【0,k-1】与【j-k,j-1】,即这两区段内容相同。
此时会出现两个情况:
一.
k与j所指的字符是相等的,那么k与j都向后移动一位。next[++j] = ++k;
二.
k = next[k];
k与j所指的字符不是相等的,那么需要向当前的真前缀的区间里找到最长的真前后缀,然后用这真前缀中的真前缀的最终字符与当前的j进行比较,这里又回到了最开始的两种情况了。
引用:
next[k]代表 [0, k - 1] 区段中最长相同真前后缀的长度。如图,用左侧两个椭圆来表示这个最长相同真前后缀,即这两个椭圆代表的区段内容相同;同理,右侧也有相同的两个椭圆。所以 else 语句就是利用第一个椭圆和第四个椭圆内容相同来加快得到 [0, j - 1] 区段的相同真前后缀的长度。细心的朋友会问 if 语句中k== -1存在的意义是何?第一,程序刚运行时,k 是被初始为-1,直接进行P[k] == P[j]判断无疑会边界溢出;第二,else 语句中k = next[k],k是不断后退的,若 k在后退 中被赋值为 -1(也就是k= next[0]),在P[k] == P[j]判断也会边界溢出。综上两点,其意义就是 为了特殊边界判断。p表示模式串。
最后是对next[k]所指字符与j所指字符进行比较。
代码如下:
public int strStr(String haystack, String needle) {
if(needle == null||haystack == null||needle.length() == 0)
return 0;
if(haystack.length()<needle.length()||haystack.length() == 0)
return -1;
int next[] = getNext(needle);
int p = 0;
int m = 0;
while(m<haystack.length()&&p<needle.length()){
p=p==-1?0:p;
if(haystack.charAt(m)==needle.charAt(p)) {
p++;
m++;
}else {
if(p==0)
m++;
p = next[p];
}
}
if(p==needle.length()) {
return m-p;
}
return -1;
}
public int[] getNext(String needle) {
int len = needle.length();
int next[] = new int[len];
//将next数组的零下标初始为-1是为了便于后面操作的实现
next[0] = -1;
int k = -1;
int j = 0;
while(j<len-1) {
if(k == -1||needle.charAt(k)==needle.charAt(j)) {
next[++j] = ++k;
}else {
k = next[k];
}
}
return next;
}
如果没看懂下面是大神的博客:
大神的KMP详解博客地址
.
二.BM算法
是一种比KMP算法更有效的算法。倒着匹配,后缀匹配。
BM算法的两大核心就是1.坏字符规则,2.好后缀规则。