1.字符串匹配问题
问题:有一个字符串 str1= “BBC ABCDAB ABCDABDABDE”,和一个子串 str2=“ABCDABD”
现在要判断 str1 是否含有 str2, 如果存在,就返回第一次出现的位置, 如果没有,则返回-1
分析:
方法一:暴力穷举算法,将str1的第一个位置作为开始位置和str2进行依次匹配,匹配不成功,str1的第二个位置作为开始匹配的位置继续重复之前的操作,直至str2匹配成功或str1匹配结束。
方法二:KMP算法,根据已经匹配的信息,求下一次匹配的位置。
2.KMP算法
KMP的核心就是找到下一个开始匹配的位置。
eg.
String s1=“BBC ABCDAB ABCDABDABDE”;
String s2=“ABCDABD”;
比如ABCDABD,假如已经匹配了ABCDAB,然后需要重新找新的开始匹配的位置,那么可以确定的是,原字符串中从当前查找的起始位置开始的字符串是ABCDAB,现在求下一个开始匹配的位置。
分析:下一次匹配也是"A",“AB”,“ABC”,“ABCD”(前缀)…这样一步一步来比对,而现在需要做的是确定已经匹配的字符串中是否有"A",“AB”,“ABC”,“ABCD”(后缀)结尾的,如果有,就能确定下一个开始的位置,如果没有,可以直接不考虑已经匹配的ABCDAB,跳过。
对于"ABCDABD":它可能匹配了的情况是:“未匹配” “A” “AB” “ABC” “ABCD” “ABCDA” “ABCDAB” “ABCDABD”(匹配成功)
由表易得
下一次开始位置=本次开始位置+(本次匹配长度-前缀后缀交集的最大长度)
3.代码实现
对于前缀后缀交集的最大长度,我们可以使用一个next[]数组存起来,作为字符匹配表。
比如"ABCDABD"的字符匹配表为[0,0,0,0,1,2,0]
//获取到一个字符串(子串)的部分匹配表
public static int[] kmpNext(String dest){
int next[]=new int[dest.length()];
for(int i=0;i<dest.length();i++){
String s1=dest.substring(0, i+1);
next[i]=getNext(s1);
}
return next;
}
public static int getNext(String dest){
Set<String> set1=new HashSet<>();
Set<String> set2=new HashSet<>();
//前缀
for(int i=1;i<dest.length();i++){
String s1=dest.substring(0, i);
//System.out.println(s1);
set1.add(s1);
}
//后缀
for(int i=1;i<dest.length();i++){
String s2=dest.substring(dest.length()-i, dest.length());
//System.out.println(s2);
set2.add(s2);
}
//求交集
set1.retainAll(set2);
//取最大长度作为next
int max=0;
for(String tmp:set1){
if(tmp.length()>max){
max=tmp.length();
}
}
return max;
}
KMP算法
/**
* KMP算法
* @param s1
* @param s2
* @return
*/
public static int KMPMatch(String s1,String s2,int []next){
int index=0; //匹配起始位置
int fit=0; //匹配的数量
//S1剩下的字符串足够与s2匹配
while(index<=s1.length()-s2.length()){
//如果某位未能匹配
if(s1.charAt(index+fit)!=s2.charAt(fit)){
if(fit==0){
index=index+1;
}
else{
index=index+fit-next[fit-1]; //index往后移
}
fit=0; //fit置为0
continue; //继续
}
//匹配成功
else{
fit++; //匹配的数量+1
}
//如果完全匹配,返回index
if(fit==s2.length()){
return index;
}
}
//未能匹配
return -1;
}
附上暴力穷举法代码
/**
* 暴力匹配算法
* @param s1
* @param s2
* @return
*/
public static int violenceMatch(String s1,String s2){
int index=0; //匹配起始位置
int fit=0; //匹配的数量
//S1剩下的字符串足够与s2匹配
while(index<=s1.length()-s2.length()){
//如果某位未能匹配
if(s1.charAt(index+fit)!=s2.charAt(fit)){
fit=0; //fit置为0
index++; //index往后移
continue; //继续
}
//匹配成功
else{
fit++; //匹配的数量+1
}
//如果完全匹配,返回index
if(fit==s2.length()){
return index;
}
}
//未能匹配
return -1;
}
参考:很详尽KMP算法(厉害)