一. BF算法
BF算法又称暴力匹配算法,比较方法:BF算法的思想就是将主串S的第一个字符与子串T的第一个字符进行匹配,若相等,则继续比较S的第二个字符和 T的第二个字符;若不相等,则比较S的第二个字符和T的第一个字符,依次比较下去,直到得出最后的匹配结果。
接下来是代码实现
public static int BF(String str,String sub,int pos){
if(pos < 0||pos > str.length()||sub.length() > str.length()){//判断pos是否合法
return -1;
}
//开始查找
int i = pos;//主串从pos位置开始
int j = 0;//子串
while(i < str.length() && j <sub.length()){
if(str.charAt(i) == sub.charAt(j)){//相等,主串子串依次往后移一位
i++;
j++;
}else{//主串子串都回溯
i = i-j+1;
j = 0;
}
}
if(j >= sub.length()){
return i-j;
}else{
return -1;
}
}
BF算法容易理解,但主串和子串都要回溯,在最坏情况下的时间复杂度为O(m*n),所以下面我们看一个效率较高的KMP算法
二. KMP算法
KMP算法是只将子串进行回溯,主串不回溯。接下来以例子来说明
这样就完成了一次字符串的匹配,从例子中可以看出主串的i不回退,子串的j回退到串中的某一个位置,假设这个新位置是k,那k的位置如何确定呢?再看一个例子。
下图是从i与j'开始再次进行匹配。
假设子串为T,j要回退的位置为k,则有 T0…Tk-1’=‘Tj-k …Tj-1’这个等式成立 。即子串中下标为零的到下标为k-1的真子串内容与下标为j-k到j-1的真子串内容相同。那么子串的每一个位置如果失配,都应该回退到一个位置,也就是说子串中的每一个字符都对应一个k,我们考虑将这些k值存储在一个数组中,称之为next[ ]。
概念了解了,那就来看几个例子求求他们的next
接下来看一下如何来求next数组。
我们可以通过 next[i]的值,通过一系列转换得到 next[i+1]得值。
第一种情况:
此时next[i+1]=next[i]+1
第二种情况:如果i与next[i]位置的字符不相同
i与next[i]位置字符不同,此时应该如何求next[i+1]呢?
next数组的优化:
例如,aaaaaaaab,他的 next 数组是-1,0,1,2,3,4,5,6,7.而修正后的数组 nextval 是:
-1,-1,-1,-1,-1,-1,-1,-1,7。为什么出现修正后的数组,假设在 5 号处失败了,那退一步还是 a,还是相等,
接着退还是 a。就不需要一步一步的退去比较,直接让j=next[next[j]]。
以下为代码实现:
public static int KMP(String str,String sub,int pos){//返回在主串中的位置
int i = pos;//从pos位置开始
int j = 0;
int[] next = new int[sub.length()];
getNext(next,sub);
while(i < str.length() && j < sub.length()){
//匹配成功
if(j == -1||str.charAt(i) == sub.charAt(j)){
i++;
j++;
}else{
j = next[j];
}
}
if(j >= sub.length()){
return i - j;
}else{
return -1;
}
}
//得到next数组
public static void getNext(int[] next,String str){
next[0] = -1;
next[1] = 0;
int i = 2;//下一项
int k = 0;//前一项的k
while(i < str.length()){
if(k == -1||str.charAt(k) == str.charAt(i - 1)){//Pk == Pi时
next[i] = k+1;
i++;
k = k+1;
}else{
k = next[k];
}
}
}