经典算法教程：KMP字符串匹配算法

最新推荐文章于 2022-04-20 10:39:49 发布

陈华杰

最新推荐文章于 2022-04-20 10:39:49 发布

阅读量263

点赞数 1

分类专栏： python 算法文章标签： KMP算法字符串匹配

本文链接：https://blog.csdn.net/cetrol_chen/article/details/79211068

版权

python 同时被 2 个专栏收录

10 篇文章 0 订阅

订阅专栏

算法

4 篇文章 0 订阅

订阅专栏

在文本S中找到模板P所处的位置，称为字符串匹配。如图所示

这里写图片描述

最经典的算法莫过于由Knuth、Morris和Pratt三人设计的线性时间算法，简称KMP算法。

1.原理解释

如图，假设有文本S，模板P，在start位置开始匹配。当start=0时，表示从文本S的第一个字符开始匹配。

这里写图片描述

假设逐个匹配到模板P中第j+1个字符时，S与P中的字符不相等，表示S与P中的前j个字符都相等。当j=0时，表示第一个字符就不相等。

这里写图片描述

再假设模板P[0:j]的子串中，前缀和后缀相同的最长长度为N，当N=0时，表示没有相同的前缀和后缀。
比如在字符串abcab中，前缀与后缀可以表示如下

长度	前缀	后缀
长度1	a	a
长度2	ab	ab
长度3	abc	cab
长度4	abca	bcab

从表中可以看出，前缀与后缀相同的最长长度为2，所以N=2。

如图所示，绿色部分即为相同的前缀与后缀，且长度为N.

这里写图片描述

此时将模板P的前缀移动到前一次比较的后缀处。如下图所示

这里写图片描述

此时模板P的移动距离为 $x = j - N$ ，等效于将文本S的 $s t a r t$ 更新为 $s t a r t + j - N$ .

所以关键就是求N，而N即为前缀和后缀相同的最长长度。

举个例子：假设模板P为abacdaba

j表示前j个字符匹配成功，N表示前j个字符中前缀和后缀相同的最长长度

j	匹配成功	N
0	null	0
1	a	0
2	ab	0
3	aba	1
4	abac	0
5	abacd	0
6	abacda	1
7	abacdab	2
8	abacdaba	3

上表列出了模板P中j与N的关系，明确了这些可以开始写代码了

2.代码分析

计算N的值

def calNext(p):
	#p为模板串
	n = len(p)
	next = [0]*n                        #N即为next数组
	for i in range(n):
		for j in range(i):
			if p[:i-j] == p[j+1:i+1]:   #找到相同前缀与后缀最长长度i-j
				next[i] = i-j
				break
	return next

KMP算法
在求出N值后，KMP算法就十分简单了

def kmp(s, p):
	#s文本串，p模板串
    m, n = len(s), len(p)
    Next = calNext(p)
    start = 0
    match_indices = []
    while start <= m - n:
        i = 0
        while(i < n and s[start+i] == p[i]):   #第i个位置匹配成功
            i += 1
        if i == n:
            match_indices.append(start)
        start += max(i - Next[i-1], 1)      #start每次更新为start+i-N
    if match_indexs:
        print("match successed, the index is")
        print(*match_indices, sep='\n')
    else:
        print("match failed")

3.再分析N即next数组的求法

假设已经知道next[0]，next[1]，…，next[j-1]，考虑如何求next[j]。

下图，假设next[j-1] = N
这里写图片描述
如果蓝色与红色相等，可以知道next[j] = N + 1

如果蓝色与红色不相等，在绿色区域内寻找是否存在前缀与后缀相同的子串，假设存在即图中黄色，再判断黄色片段后一个字符是否与第j个字符相等，如果相等，则黄色子串+1的长度即为next[j]；如果不相等继续在黄色子串内找前缀与后缀相同的子串，重复上述步骤。
这里写图片描述

def calNext(p):
	n = len(p)
	next = [0]*n
	for i in range(1,n):
		k = next[i-1]    
		while p[k] != p[i] and k != 0:  #直到p[k] == p[i]退出循环
			k = next[k-1]
		if p[k] == p[i]:
			next[i] = k + 1
	return next

陈华杰

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
经典算法教程：KMP字符串匹配算法

在文本S中找到模板P所处的位置，称为字符串匹配。如图所示最经典的算法莫过于由Knuth、Morris和Pratt三人设计的线性时间算法，简称KMP算法。1.原理解释如图，假设有文本S，模板P，在start位置开始匹配。当start=0时，表示从文本S的第一个字符开始匹配。假设逐个匹配到模板P中第j+1个字符时，S与P中的字符不相等，表示S与P中的前j个字符都相等。当j=0时
复制链接

扫一扫

专栏目录