经典算法教程:KMP字符串匹配算法

在文本S中找到模板P所处的位置,称为字符串匹配。如图所示

这里写图片描述

最经典的算法莫过于由Knuth、Morris和Pratt三人设计的线性时间算法,简称KMP算法。

1.原理解释

如图,假设有文本S,模板P,在start位置开始匹配。当start=0时,表示从文本S的第一个字符开始匹配。

这里写图片描述

假设逐个匹配到模板P中第j+1个字符时,S与P中的字符不相等,表示S与P中的前j个字符都相等。当j=0时,表示第一个字符就不相等。

这里写图片描述

再假设模板P[0:j]的子串中,前缀和后缀相同的最长长度为N,当N=0时,表示没有相同的前缀和后缀。
比如在字符串abcab中,前缀与后缀可以表示如下

长度前缀后缀
长度1aa
长度2abab
长度3abccab
长度4abcabcab

从表中可以看出,前缀与后缀相同的最长长度为2,所以N=2。

如图所示,绿色部分即为相同的前缀与后缀,且长度为N.

这里写图片描述

此时将模板P的前缀移动到前一次比较的后缀处。如下图所示

这里写图片描述

此时模板P的移动距离为 x = j − N x=j-N x=jN,等效于将文本S的 s t a r t start start更新为 s t a r t + j − N start+j-N start+jN.

所以关键就是求N,而N即为前缀和后缀相同的最长长度。

举个例子:假设模板P为abacdaba

j表示前j个字符匹配成功,N表示前j个字符中前缀和后缀相同的最长长度

j匹配成功N
0null0
1a0
2ab0
3aba1
4abac0
5abacd0
6abacda1
7abacdab2
8abacdaba3

上表列出了模板P中j与N的关系,明确了这些可以开始写代码了

2.代码分析

  • 计算N的值
def calNext(p):
	#p为模板串
	n = len(p)
	next = [0]*n                        #N即为next数组
	for i in range(n):
		for j in range(i):
			if p[:i-j] == p[j+1:i+1]:   #找到相同前缀与后缀最长长度i-j
				next[i] = i-j
				break
	return next
  • KMP算法
    在求出N值后,KMP算法就十分简单了
def kmp(s, p):
	#s文本串,p模板串
    m, n = len(s), len(p)
    Next = calNext(p)
    start = 0
    match_indices = []
    while start <= m - n:
        i = 0
        while(i < n and s[start+i] == p[i]):   #第i个位置匹配成功
            i += 1
        if i == n:
            match_indices.append(start)
        start += max(i - Next[i-1], 1)      #start每次更新为start+i-N
    if match_indexs:
        print("match successed, the index is")
        print(*match_indices, sep='\n')
    else:
        print("match failed")

3.再分析N即next数组的求法

假设已经知道next[0],next[1],…,next[j-1],考虑如何求next[j]。

下图,假设next[j-1] = N
这里写图片描述
如果蓝色与红色相等,可以知道next[j] = N + 1

如果蓝色与红色不相等,在绿色区域内寻找是否存在前缀与后缀相同的子串,假设存在即图中黄色,再判断黄色片段后一个字符是否与第j个字符相等,如果相等,则黄色子串+1的长度即为next[j];如果不相等继续在黄色子串内找前缀与后缀相同的子串,重复上述步骤。
这里写图片描述

def calNext(p):
	n = len(p)
	next = [0]*n
	for i in range(1,n):
		k = next[i-1]    
		while p[k] != p[i] and k != 0:  #直到p[k] == p[i]退出循环
			k = next[k-1]
		if p[k] == p[i]:
			next[i] = k + 1
	return next
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
KMP算法是一种字符串匹配算法,用于在一个文本串S内查找一个模式串P的出现位置。它的时间复杂度为O(n+m),其中n为文本串的长度,m为模式串的长度。 KMP算法的核心思想是利用已知信息来避免不必要的字符比较。具体来说,它维护一个next数组,其中next[i]表示当第i个字符匹配失败时,下一次匹配应该从模式串的第next[i]个字符开始。 我们可以通过一个简单的例子来理解KMP算法的思想。假设文本串为S="ababababca",模式串为P="abababca",我们想要在S中查找P的出现位置。 首先,我们可以将P的每个前缀和后缀进行比较,得到next数组: | i | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | | --- | - | - | - | - | - | - | - | - | | P | a | b | a | b | a | b | c | a | | next| 0 | 0 | 1 | 2 | 3 | 4 | 0 | 1 | 接下来,我们从S的第一个字符开始匹配P。当S的第七个字符和P的第七个字符匹配失败时,我们可以利用next[6]=4,将P向右移动4个字符,使得P的第五个字符与S的第七个字符对齐。此时,我们可以发现P的前五个字符和S的前五个字符已经匹配成功了。因此,我们可以继续从S的第六个字符开始匹配P。 当S的第十个字符和P的第八个字符匹配失败时,我们可以利用next[7]=1,将P向右移动一个字符,使得P的第一个字符和S的第十个字符对齐。此时,我们可以发现P的前一个字符和S的第十个字符已经匹配成功了。因此,我们可以继续从S的第十一个字符开始匹配P。 最终,我们可以发现P出现在S的第二个位置。 下面是KMP算法的C++代码实现:

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值