串的模式匹配算法
暴力匹配Brute-Forc
算法思想:
从主串S的第一个字符起,与模式T的第一个字符比较,若相等则继续逐个比较后续字符;否则从主串的下一个字符起,重新和模式的字符比较;以此类推,直至模式T中的每个字符依次和主串S中的一个连续字符序列相匹配,则匹配成功。函数值为模式T中第一个字符相等的字符在主串中的序号,否则为0。
代码实现
int Index(SString S,SString T){
int i=1,j=1;(int k=1;//记录上次匹配开始的字符位置)
while(i<=S.length&&j<=T.length){
if(S.ch[i]==T.ch[j]){
++i;++j;//继续比较后继字符
}
else{
i=i-j+2;(k++;i=k)//赋值i=k,重新开始匹配
j=1;//指针后退重新开始匹配
}
}
if(j>T.length)return i-T.length;
else return 0;
}
算法效率
简单模式匹配算法的最坏时间复杂度是O(mn),其中m和n分别是子串和主串的长度。每次的匹配均是比较到模式的最后一个字符时才发现不等。
改进的模式匹配KMP
算法提出:
在暴力匹配算法中,效率低下的根源在于每次匹配失败后,都是模式后移一位再从头开始比较。而某趟已匹配相等的字符序列是模式的某个前缀,这种频繁的重复比较相当于模式串在不断地进行自我比较,这就是其效率低下的根源。
算法思想:
模式串的移动位数=已匹配的字符数-对应的部分匹配值
改进:Move=(j-1)-PM[j-1]。使用部分匹配值时,每当匹配失败,就去找它前一个元素的部分匹配值,这样使用起来有些不方便,所以将PM表右移一位,这样哪个元素失败直接看它自己的部分匹配值即可。上式改写为:Move=(j-1)-next[j]。
next[j]的含义是在子串的第j个字符与主串发生失配时,则跳到子串的next[j]位置重新与主串当前位置进行比较。
//next[j]数组的求法
void get_next(String T,int next[]){
int i=1,j=1;
next[1]=0;
while(i<T.length){
if(j==0||T.ch[i]==T.ch[j]){
++i;++j;
next[i]=j;//若pi=pj,则next[j+1]=next[j]+1;
}
else
{
j=next[j];//否则令j=next[j],循环继续
}
}
}
代码实现:
int Index_KMP(String S,String T,int next[]){
int i=1,j=1;
while(i<=S.length && j<=T.length){
if(j==0|| S.ch[i]==T.ch[j]){
++i;++j;//继续比较后面
}
else
j=next[j];//模式串向右移动
}
if(j>T.length)
return i-T.length;//匹配成功\
else
return 0;
}
效率分析:
KMP算法的时间复杂度是O(m+n),KMP算法仅在主串与子串有很多部分匹配时才显得更快。主要优点是不回溯。