字符串匹配之Horspool算法
算法简介
Horsepool算法是Boyer-Moore算法的简化版本,这也是一个空间换时间的典型例子。算法把模式P和文本T的开头字符对齐,从模式的最后一个字符开始比较,如果尝试比较失败了,它把模式向后移。每次尝试过程中比较是从右到左的。
假设文本中,对齐模式最后一个字符的元素是c,Horspool算法根据c的不同情况来确定移动距离,无论c是否和模式的最后一个字符相匹配。
一般来说,会存在下面四种情况(本文列举两种)。
情况1:看第一行,模式中不存在c(此时c就是字母A),模式的移动长度就是它的全部长度,移到第二行所示的位置。
情况2:看第二行,c(此时c就是字符O)正好是模式的最后一个字符,但是从右向左比较时,有字符不匹配,比如此时的A和E不匹配。而且模式中的其他m-1个字符也不包含c。移动的情况类似情况1,移动的幅度等于模式的全部长度,移到第三行所示的位置。
这说明,比起蛮力算法每次总是移动一个位置,从右到左的字符比较使模式模式移动得更远。然而,如果在每次尝试时都必须检查模式中的每个字符,它的优势也会丧失殆尽。我们可以预先算出遇到某个字符要移动的距离,并把它存在一个表中。具体来说,对于每一个字符c,可以通过以下公式算出移动距离:
t©={模式的长度m(如果c不包含在模式的前m-1个字符中)
模式前m−1个字符中最右边的c到模式最后一个字符的距离(其他情况下)
代码实现
#include<stdio.h>
#include <iostream>
#include <string.h>
int table[256];
int skip( char *p,int m){
for(int i=0;i<256;i++)
table[i]=m;
for(int j=0;j<m-1;j++){
table[p[j]]=m-1-j;
}
return *table;
}
int horspool(char *p,char *t,int m,int n){
skip(p,m);
int i=m-1;
while(i<=n-1){
int k=0;
while(k<m&&p[m-1-k]==t[i-k]){
k++;
}
if(k==m)
return i-m+1;
else
i=table[t[i]]+i;
}
return -1;
}
int main(){
char p[256];
char t[256];
scanf("%s%s",&p,&t);
int m=strlen(p);
int n=strlen(t);
int x=horspool(p,t, m,n);
printf("%d",x);
}