首先要先求到用于比较字符串的最长公共前后缀作为prefix表(代码Algotithm(pattern,prefix)方法)
如图:若要求最长公共前后缀可知,以aba(下标为0,1,2)为例,要求他的最长公共前后缀,则必须让下标2等于下标1.同理:abab(下标为0,1,2,3)则必须让下标3等于下标1,才能让最长公共前后缀的长度在之前的基础上加一,否则为0(先不考虑下标为3 的值等于下标为1 的情况)(若考虑这种情况吗,则需让pattern斜对角位置的prefix值作为pattern下标,再循环比较找到有无相同前后缀,至于原因,目前还没弄懂)。再同理ababc(下标为0,1,2,3,4),则必须让下标为4的值等于下标为2的值,明显不可能,则最长公共字符串为0;
然后再将得到的字符串统一后移一位,将第一位赋值为-1.便于后面与text字符串比较(move_prefix(prefix)方法)
最后将字符串与text字符串进行比较(KMP_search(pattern,text,prefix)方法)
1.先按顺序比较
若比较到不一样的情况,则将p字符串移动到此时他prefix表下标的值的位置(例如此时T的a与P的b不一致,而b的prefix表的值为0,所以则将p字符串的下标0移动到prefix 0 的位置,也就是p字符串整体后移一位)如图:
同理:若比较到prefix的下标为2 的时候,则将p字符串下标为2的a移动到prefix【2】的位置,也就是整体后移两位;若匹配到了,则输出此时的值。
KMP算法很多种,这只是我理解的最简单的方法。大致也就是这样了
package com.lx.e_KMP;
import java.util.Arrays;
public class KMPAlgorithm {
public static void main(String[] args) {
String pattern[]= {"A","B","A","B","C","A","B","A","A"};//pattern为原始字符串
int prefix[] = new int[9];
String text[] = {"A","B","A","B","A","B","A","B","C","A","B","A","A","B"};//将pattern与text字符串比较
Algotithm(pattern,prefix);
System.out.println(Arrays.toString(prefix));
move_prefix(prefix);
System.out.println(Arrays.toString(prefix));
KMP_search(pattern,text,prefix);
}
private static void KMP_search(String[] pattern, String[] text, int[] prefix) {
int i = 0;//i为text字符串的下标
int j =0;//j为pattern字符串的下标
while (i<text.length) {
if (j==pattern.length-1 &&pattern[j] == text[i]) { //若此时j的值等于pattern数组的值,则表示比较到了末尾值,且最后一位和text数组的值相等,则说明此时找到了最长字符串
System.out.println("相似字符串位置为text数组的第:"+(i-j+1)+"位");
j=prefix[j];//找到了字符串还需将patt字符串往后移动;
}
if (text[i] == pattern[j]) {
i++;j++;//若比较相等,则两个数组的下标都往后移动一位
}else {//若不相等,则将此时pattern下标的prefix数组值作为prefix的下标
j=prefix[j];//再回溯到while处将数组循环比较
if (j==-1) {//此时若j为-1,则将text和pattern数组的下标都往后移动一位
i++;j++;
}
}
}
}
private static void Algotithm(String[] pattern, int[] prefix) {
//得到prefix数组
int n =pattern.length;
prefix[0] = 0;//prefix的第一位肯定为0
int len = 0;//prefix与pattern数组的公共最长前后缀
int i =1;//pattern的数组下标,默认不与第一位比较,直接从第二为开始
while (i<n) {
if (pattern[i] == pattern[len]) {
//如果pattern的第i位与最长前后缀的数量下标的数组比较相同,则表示个pattern数组的
//最长前后缀又多一位,prefix数组的i值加一。
len++;//往后移动
prefix[i] = len;
i++;//往后移动
}else {//若不相等,则让pattern斜对角位置的prefix值作为pattern下标,再循环比较找到有无相同前后缀
if (len>0) {
len = prefix[len-1];//将pattern斜对角位置的prefix值作为pattern下标,回上个循环函数进行比较
}else {
prefix[i] = len;//此时len=0,意味着没有最长公共前后缀了
i++;
}
}
}
}
//将得到的prefix数组往后移动一位,将首位赋值为-1,便于与pattern数组比较
private static void move_prefix(int[] prefix) {
for (int i = prefix.length-1;i>0;i--) {
prefix[i] = prefix[i-1];//将数组从倒数第二位开始赋值给新数组的倒数第一位,此时数组第一位为空,再将此时的值赋为-1;
}
prefix[0] = -1;
}
}
具体可看大佬视频讲解KMP字符串匹配算法1_哔哩哔哩_bilibili