模式匹配
欢迎转载,转载请注明原文链接:http://blog.csdn.net/lavor_zl/article/details/42805977
1.BF(Brute Force)算法
BF(Brute Force)算法是普通的模式匹配算法,BF算法的思想就是将目标串S的第一个字符与模式串T的第一个字符进行匹配,若相等,则继续比较S的第二个字符和 T的第二个字符;若不相等,则比较S的第二个字符和T的第一个字符,依次比较下去,直到得出最后的匹配结果。BF算法是一种蛮力算法。假设目标串S的长度为m,模式串的长度为n,那么BF算法的时间复杂度为O(mn)
算法实现:
int BFMatch(char targetStr[],char modelStr[])
{
if(targetStr==NULL||targetStr[0]=='\0'||modelStr==NULL||modelStr[0]=='\0')
{
printf("目标串或模式串中有为空的或为空串的,此时无法模式匹配");
return -1;
}
int i=0;//目标串的下标
int j;//模式串的下标
while(targetStr[i]!='\0')
{
j=0;
while(modelStr[j]!='\0')
{
if(targetStr[i]==modelStr[j])
{
i++;
j++;
}
else
{
/*
可能有人开始时,不理解这里i是怎么回溯的,直观上我们只知道i要相对于本轮循环开始时的i加上1
在本轮匹配的过程中j从0走到了现在的j,所走步数是现在的j,在回溯之前一直都是j走一步,i走一步,
那么i走的步数也是现在的j,用现在的i减去现在的j就是原来的i即本轮循环开始时的i,再加上1就是回溯的下标i
*/
i=i-j+1;//回溯目标串的下标i
break;
}
}
//模式匹配成功,返回模式串在目标串中首次出现的位置
if(modelStr[j]=='\0') return i-j;
}
return -1;//模式匹配失败,返回-1
}
2.KMP算法
2.1KMP算法概述
KMP算法是一种改进的字符串匹配算法,由D.E.Knuth与V.R.Pratt和J.H.Morris同时发现,因此人们称它为克努特——莫里斯——普拉特操作(简称KMP算法)。KMP算法的关键是利用匹配失败后的信息,尽量减少模式串与主串的匹配次数以达到快速匹配的目的。具体实现就是实现一个next()函数,函数本身包含了模式串的局部匹配信息。其实KMP算法与BF算法的区别就在于KMP算法巧妙的消除了指针i的回溯问题,只需确定下次匹配j的位置即可,使得问题的时间复杂度由O(mn)下降到O(m+n)。2.2next[]数组
在KMP算法中,为了确定在匹配不成功时,下次匹配时j的位置,引入了next[]数组。
对于next[]数组的定义如下:
1) next[j] = -1 j = 0
2) next[j] = max(k) 0<k<j,P[0...k-1]=P[j-k,j-1]
3) next[j] = 0 其他
KMP算法的思想就是:在匹配过程称,若发生不匹配的情况,如果next[j]>=0,则目标串的指针i不变,将模式串的指针j移动到next[j]的位置继续进行匹配;若next[j]=-1,则将i右移1位,并将j置0,继续进行比较。
2.3KMP算法正确性的证明
网上很多讲解KMP算法的,甚至有的画图来演示KMP算法匹配的过程,但是他们往往忽略了一个重点,KMP算法的优点在于引进了next[]数组,那么我们重点就要关注next[]数组了,证明根据next[]数组移动指针的正确性。
很多求next[]的数组都给出上面的公式,那么请问第三项的条件其他是指那么条件?
这里的其他其实是指j=1或者j>1且不存在k,使得0<k<j,P[0...k-1]=P[j-k,j-1]
下面来证明next[]数组的正确性: