前言
KMP算法将从前向后的字符串匹配的效率发挥到了极致,所以想要进一步提升,只能打破思维定式,找到一条与众不同的路。所以从后往前的字符串匹配算法就应运而生。它可以更为高效的快速移动字符串,但是在最坏情况下会退化为朴素的BF算法。
BMH算法介绍
BMH算法是由BM算法改进的算法,BM算法的方法为预先定义好“坏字符偏移函数”和“好后缀偏移函数”,当字符串与模式不匹配时,就通过这两个函数计算出偏移量,具体流程这里就不赘述了,因为实际应用中,坏字符偏移函数的应用次数远超过好后缀偏移函数,在实际匹配中,仅使用坏字符偏移函数也十分奏效,所以就提出了改进的BMH算法,实现起来简便而快捷。
BMH算法原理
设匹配字符串长度为M,被匹配字符串长度为N,将两个字符串先对齐后从后往前匹配。当失配时,搜索对齐位置末尾的字符在匹配字符串中从后往前最先出现的位置(预处理后时间复杂度为O(1) )k,移动m-k-1位,如果不存在则会初始化为-1。该算法的理想复杂度为N/M,期望复杂度为N,最坏复杂度为N*M。
初始化BMH数组
void PreProcess(const char *patt,int m,int bmH[]){
//预处理BMH数组,此处直接保存位移的位数
int k=0;
for(k=0;k<MAXCHAR;k++)bmH[k]=m;
for(k=0;k<m-1;k++)bmH[patt[k]]=m-k-1;//注意最后一位不计算,为默认值m
}
BMH算法模拟
假设匹配字符串:CAPTCACATT,被匹配字符串CAT
初始化BMH:
A ... C ... T ...(用ASCLL编码数组保存即可)
1 3 2 3 3 3
第一步:
CAPTCTCATT
CAT
在p[2]位置失配,此时判断T[2]P的BMH数组值,发现为3,则向后移动3位
第二步:
CAPTCACATT
CAT
p[5]匹配,T[4]失配,此时判断T[5]A的BMH数组值,发现为1,则向后移动1位
第三步:
CAPTCACATT
CAT
在T[6]位置失配,此时判断T[6]C的BMH数组值,发现为2,则向后移动2位
第四步:
CAPTCACATT
CAT
匹配成功
算法测试代码
/*
测试数据:
CAPTCACATT
CAT
*/
#include<iostream>
#include<cstdio>
#include<string>
#include<cstring>
#include<cmath>
#include<cstdlib>
#include<algorithm>
#define MAXCHAR 256
using namespace std;
void PreProcess(const char *patt,int m,int bmH[]){
int k=0;
for(k=0;k<MAXCHAR;k++)bmH[k]=m;
for(k=0;k<m-1;k++)bmH[patt[k]]=m-k-1;
}
int BMH(string t,string p){
int bmH[MAXCHAR];
int m=p.length();
int n=t.length();
if(m>n)return -1;
const char *patt=p.c_str();
const char *text=t.c_str();
PreProcess(patt,m,bmH);
int k=m-1;
while(k<n){
printf("%d\n",k);
int j=m-1;
int i=k;
while(j>=0&&text[i]==patt[j]){
i--;
j--;
}
if(j==-1)return i+1;
k+=bmH[text[k]];
}
return -1;
}
int main() {
string s,p;
cin>>s>>p;
printf("%d\n",BMH(s,p));
return 0;
}
sunday算法
sunday算法算是BMH算法的改进,sunday算法是每次观察对齐位置末尾的后一位字符在匹配字符串中从后往前最先出现的位置(预处理后时间复杂度为O(1) )k,移动m-k位,如果不存在则会初始化为-1。该算法的理想复杂度为N/M,期望复杂度为N,最坏复杂度为N*M。由于思想雷同,此处就不详细赘述了,代码为了打印效果写的比较乱,请大家见谅。
/*
测试数据:
CAPTCACATT
CAT
*/
#include<stdio.h>
#include<string.h>
#include<math.h>
#include<stdlib.h>
char P[1000],S[1000];
int sun[255];
void print(int s,char a[],char b[]){
int al=strlen(a),bl=strlen(b);
for(int i=0;i<bl;i++){
printf("%c",b[i]);
}
printf("\n");
for(int i=0;i<s+al;i++){
if(i<s)printf(" ");
else printf("%c",a[i-s]);
}
printf("\n");
}
void sunday(char a[],char b[]){
print(0,a,b);
int Pl=strlen(a),Sl=strlen(b);
for(int i=0;i<Pl;i++){//初始化sun数组
if(!sun[a[i]])sun[a[i]]=i+1;
}
int i=0,j=0;
while(i<Sl){
while(j<Pl){
printf("%d %d\n",i,j);
if(a[j]==b[i]){
i++;
j++;
}
else{
int temp=i+Pl-j;
if(temp>=Sl){
i=temp;
break;
}
printf("%d %c %d\n",temp,b[temp],sun[b[temp]]);
if(sun[b[temp]]){
i=i-j+Pl-sun[b[temp]]+1;
j=0;
}
else{
j=0;
i=temp+1;
}
print(i,a,b);
}
}
if(j==Pl)printf("True!\n");
j=0;
}
}
int main() {
scanf("%s%s",S,P);
sunday(P,S);
exit(0);
}