4.3串的模式匹配计算——KMP算法分析
对于不同的j(模式串P中的失配位置),k的取值不同
它仅依赖于模式P本身前j个字符的构成
,与目标无关
思路:
可以用一个next[]失配函数来确定:当模式P中第j个字符与目标S中相应字符失配时,模式P中应当由哪个字符(设为第k + 1个)与目标中刚适配的字符重新继续进行比较
设模式P = P0 P1 ... Pm - 2 Pm - 1
, next[]失配函数定义如下:
next[j] = -1, j = 0;
next[j] = k + 1, P0 P1...Pk = P(j - k + 1)P(j - k)...P(j - 1)的最大整数;
next[j] = 0, 其他情况;
相当于在已经匹配的情况下,找一下完全匹配情况下的部分子串,从左和从右依次能不能找到一个最大的子串!
利用next失配函数进行匹配处理
若设在进行某一趟匹配比较时在模式P的第j位失配:
if j > 0, 那么在下一趟比较时模式 P 的起始比较位置时P(next[j]),目标S的检测指针不回溯,
仍指向上一趟失配的字符;
if j = 0, 则目标 S 的检测指针进一,模式 P 检测指针回到 P0, 进行下一趟匹配比较
举个栗子
next失配函数的计算:
设模式 P =P0 P1 P2 ... P(m - 1)
由m个字符组成,而next失配函数为next = n0 n1 n2 … n(m - 1),表示了模式的字符分布特征;
next失配函数从0,1,2,...,m - 1逐项递推计算:
1.当j = 0时,n0 = -1, 设j > 0时n(j - 1) = k;
2.当k = -1或j > 0且p(j - 1) = P(k), 则n(j) = k + 1;
3.当P(j - 1) != P(k) 且 k != -1, 令k = n(k),并让③循环知道条件不满足;
4.当P(j - 1) != P(k) 且 k = -1, 则n(j) = 0;
由模式串t求next值的算法
void GetNext(SqString P, int next[])
{
int j, k;
j = 0;
k = -1;
next[0] = -1;
while (j < P.length - 1) {
if (k == -1 || P.SString[j] == P.SString[k]) {
j++;
k++;
next[j] = k;
}
else k = next[k];
}
}
KMP算法
int index_KMP(SqString S, SqString P, int pos)
{
int next[MaxSize], i = pos - 1, j = 0;
GetNext(P, next);
while (i < S.length && j < P.length) {
if (j == -1 || S.SString[i] == P.SString[j]) {
i++;
j++; //i,j各增1,继续比较下一个字符
}
else
j = next[j];//i不变,j后退
}
if (j >= P.length)
return (i - P.length);//返回匹配模式串的首字符下标
else
return -1;//返回不匹配标志
}
KMP算法分析:
此算法的时间复杂度取决于 while·循环,由于是无回溯
的算法,执行循环时,目标S字符比较有进无退,要么执行i++和j++(对应位相等),要么查找nextp[]数组进行模式P位置的右移,然后继续向后比较。
字符的比较次数最多为O(n),n是目标S的长度