KMP算法详解

字符串经典的匹配算法,时间算法复杂度为(n+m)。说到kmp算法不得不提朴素的字符串匹配算法,在朴素字符串匹配算法中,每次当匹配不相等时就回溯到开始匹配字符串的下一个字符,重新开始匹配。这种算法的时间复杂度为(n*m)。




kmp算法之所有能够将时间复杂度将为(n+m),是因为kmp算法不是每次都回溯到字符串开始匹配的位置下一个位置重新开始匹配,而是利用前面匹配的信息,进行跳跃式匹配。

先给一个示例:




在pattern[4] = 'c'  source [4] = 'a', pattern[4] != source[4],  那么接下来source[4]该和谁匹配呢,因为在pattern 中pattern[0,1] = ab = pattern[2,3],图中画红线部分。所以可以直接用pattern[2] 与 source[4]匹配。也就是说pattern[0-3]的前缀pattern[01] = ab 与后缀pattern[23] = ab 是相等的。

在一般情况中,source[i] != pattern[j] 时,j应该是谁?在kmp中用next数组来表示j = next[j];下面一步步解析一下:

1、当next[j] = j - 1时;

source: s1  s2  s3  s4.....si-j  si-j+1 si-j+2 .........si-1  si  si+1..............

      pattern:                                   p0     p1      p2    ...........pj-1  pj

p0    p1    ...........pj-2 pj-1

  所以:pattern[0-j-2] = pattern[1-j-1];

2、当next[j] = j - 2时;

      

         source: s1  s2  s3  s4.....si-j  si-j+1 si-j+2 .........si-1  si  si+1..............

      pattern:                                     p0     p1      p2    ...........pj-1  pj

     p0    ...........pj-3   pj-2

所以:pattern[0-j-3] = pattern[2-j-1];


3、当next[j] = 2时;

      source: s1  s2  s3  s4.....si-j  si-j+1 si-j+2 ................si-1  si  si+1..............

      pattern:                                   p0     p1      p2    .......pj-2  pj-1  pj

                          p0      p1    p2

所以:pattern[0,1] = pattern[j-2, j-1];

4、当next[j] = 1时;

      source: s1  s2  s3  s4.....si-j  si-j+1 si-j+2 .........si-1  si  si+1..............

      pattern:                                   p0     p1      p2    .........pj-1  pj

                             p0    p1

所以:pattern[0] = pattern[j-1];

5、当next[j] = 0时;

source: s1  s2  s3  s4.....si-j  si-j+1 si-j+2 .........si-1  si  si+1..............

      pattern:                                   p0     p1      p2    ........pj-1  pj

                                            p0


现在清楚next数组了吧,下面是应该怎么求next数组;假设在求pattern的next数组中,前面的下标匹配到j,后面的下标匹配到i,且从pattern[0-j] = pattern[i - j ....i]

那么在i++,j++之后呢,如果pattern[i] != pattern[j], 因为在之前pattern[i] = pattern[j],所以他们的前缀相同,所以next[i] = j;

如果pattern[i] == pattern[j]时,前缀一样,当前字符也一样,那么只能看pattern[j]的前缀是怎么处理的,即next[i] = next[j];

代码:

void build_next(char const *ptrn, int plen, int *next)
{
	int i = 0;
	next[i] = -1;
	int j = -1;

	while (i < plen - 1) {
		if (j == -1 || ptrn[i] == ptrn[j]) {
			i++;
			j++;
			if (ptrn[i] != ptrn[j]) {
				next[i] = j;
			} else {
				next[i] = next[j];
			}
		} else {
			j = next[j];
		}
	}
}

int kmp_search(char const *src, int lenA, char const *ptrn, int lenB,int *next, int pos)
{
	int i = pos;
	int j = 0;
	while (i < lenA && j < lenB) {
		if (j == -1 || src[i] == ptrn[j]) {
			i++;
			j++;
		} else {
			j = next[j];
		}
	}

	if (j >= lenB)
		return i - lenB;
	else 
		return -1;
}



  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值