【问题描述】
给定两个字符串S和T,在主串S中查找子串T,若主串中包含子串,则返回子串在主串中开始的位置,否则返回-1。
【BF算法】
匹配过程:
假设主串S为 abcabcacb
子串T为 abcac
第一趟匹配:a b c a b c a c b \0
a b c a c \0
第二趟匹配:a b c a b c a c b \0
a b c a c \0
第三趟匹配:a b c a b c a c b \0
a b c a c \0
第四趟匹配:a b c a b c a c b \0
a b c a c \0
算法描述:
输入:主串S,模式T
输出:T在S中的位置
1.初始化主串比较的开始位置index=0;
2.在串S和串T中设置比较的起始下标i=0,j=0;
3.重复下述操作,直到S或T的所有字符均比较完毕:
3.1 如果S[i]等于T[j],则继续比较S和T的下一对字符;
3.2 否则,下一趟匹配的开始位置index++,回溯下标i=index,j=0;
4.如果T中所有字符均比较完,则返回匹配的开始位置index;否则返回0;
代码实现:
int BF(char s[],char t[])
{
int index=0;
int i=0,j=0;
while((s[i]!='\0')&&(t[j]!='\0'))
{
if(s[i]==t[j])
{i++;j++;}
else
{index++;i=index;j=0;}
}
if(t[j]=='\0')return index;
else return 0;
}
算法分析:
设主串S长度为n,模式T长度为m,在匹配成功的情况下,考虑最坏情况,即每趟不成功的匹配都发生在模式T的最后一个字符。
例如 :S="aaaaaaaaaaaaaab"
T="aaab"
设匹配成功发生在 Si 处,则在 i-1 趟不成功的匹配中共比较了 (i-1)×m 次,第 i 趟成功的匹配共比较了 m 次,所以总共比较次数是:
一般情况下,m
n,因此最坏情况下的时间复杂度为O(m×n)。
【KMP算法】
确定Next数组:
例如:子串=“ababc”
j T比较前后缀比较最长匹配度 next[j] 0 -1 1 a 0 2 ab 0 3 aba 1 4 abab 2
KMP匹配:
算法描述:
输入:主串S,模式T
输出:T在S中的位置
1. 在串S中和串T中分别设置比较的起始下标 i = 0 , j = 0;
2. 重复下述操作,知道S或T的所有字符均比较完毕:
2.1 如果S[i]等于T[j],则继续比较S和T的下一对字符;
2.2 否则,将下标j回溯到next[j]的位置,即j=next[j];
2.3 如果 j 等于-1,则将下标 i 和 j 分别加 1 ,准备下一趟比较;
3. 如果T中所有字符均比较完毕,则返回本趟比较匹配的开始位置;否则返回-1;
代码实现:
void getNext(char *p,int next[]) { int j=0,k=-1,plen=strlen(p); next[0]=-1; while(j<plen-1) { if(k==-1||p[j]==p[k]) { ++k;++j; next[j]=k; } else k=next[k]; } } int KMPsearch(char* s,char* p) { int i=0,j=0,slen=strlen(s),plen=strlen(p),next[100]; getNext(p,next); while(i<slen&&j<plen) { if(j==-1||s[i]==p[j]) { i++;j++; } else j=next[j]; } if(j==plen) return i-j; else return -1; }
算法分析:
算法getNext只需将模式扫描一遍,设模式的长度为 m ,则算法的时间复杂性为O(m)。
【参考文献】《算法设计与分析(第2版)》王红梅 胡明 编著