最容易理解的KMP算法推演(包括next数组的理论推导)

无小道

已于 2024-03-13 20:59:46 修改

阅读量1.9k

点赞数 36

文章标签：算法 c语言 c++ 数据结构

于 2024-03-12 11:27:04 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2302_80221042/article/details/136633408

版权

BF算法(暴力求解)

我们直接看一个例子:

文本串: a b c b e f g

模式串: b e f

题目:在文本串中找到模式串并返回其所在位置.

整体来说就是不断从文本串的不同位置开始与模式串匹配,直到匹配上.

KMD算法

好,我们改变一下题目:

文本串:a b a a b a a d e

模式串:a b a a d e

题目:在文本串中找到模式串并返回其所在位置.

BF算法当然可以解决,但是分析一下,需要判断4次才能得到正确起始位置.

这样,我们引入了KMP算法,它可以高效的解决这类文本串含多个模式串起始字符的查找问题.

下面给出思路:

首先,我们先把两个字符串匹配一次:

如图,匹配到 i 位置停止.

下一步, i 不动,从模式串0~j -1 号位之间分别找以0号位开头的字符串(记为s1)和以 j-1 号位结尾的字符串(记为s2),这两个字符串必须相等(尽可能长),且长度不能为 j .

如图:s1的长度正好就是 j 要移动到的位数,也就是是1号位.

j 和 i 继续匹配,而此时我们检查的正是从文本串3号位开始的字符串是否与模式串匹配,其中3号位肯定匹配.

为什么这样做?

我们拉回之前的图:

把下一次文本串的起始位置记为start ,start = 2/3.

首先,既然已经匹配失败停止到 i 位上,那么模式串肯定比 0 ~i -1(0~j-1)长,更比start~i-1(j-1)长,所以如果起始位置为start的文本串能和模式串匹配成功的话arr1[start]~arr1[i-1]肯定能和模式串匹配(总体相等,部分也相等),如果连arr1[start]~arr1[i-1]都匹配不上也就没必要继续了(自己举个反例子体会一下).而arr1[start]~arr1[i-1]匹配的一部分模式串为arr2[0]~arr2[i-start],即arr1[start]~arr1[i-1]==arr2[0]~arr2[i-start](1)

又因为arr1[0]~arr1[i-1]==arr2[0]~arr[ j-1],所以必有arr1[start]~arr1[i-1]==arr2[start]~arr2[ j-1](2)(总体相等,部分也相等)

联立(1)(2)得arr2[0]~arr2[i-start]==arr2[start]~arr2[ j-1]

显然,3满足,2不满足,所以start=3,

这解释了

从模式串0~j -1 号位之间分别找以0号位开头的字符串(记为s1)和以 j-1 号位结尾的字符串(记为s2),这两个字符串必须相等(尽可能长)

至于尽可能长,则是因为越长,文本串起始位置越往前,防止漏掉,当然匹配不上就短一点,就像上文start=3却!=2.

且长度不能为 j

如果长度为 j 的话,那不就是刚匹配过的字符串,很显然匹配失败.

直到现在我们终于可以把 j 移动了

如图:s1的长度正好就是 j 要移动到的位数,也就是是1号位.

然后比较 i 和 j 是否匹配

这解释了为什么 i 不用移动!!!(看(2)式,前面都相等了,i 还退回去比个集贸)

最后一个疑问,确定 j回退的位置貌似更加繁琐.可惜,前人为我们创造了next数组,可以显示出每个位置的回退位置,它被公式推导出来.

给next数组赋值的推导过程:

首先,无论何时

next[0]=-1(在下文)

next[1]=0;

下一步

设next[i]=k(k为 j 回退到的位置);

arr2[0]~arr2[k-1]==arr2[start]~arr2[ j-1]

观察发现start = j - k;

故 arr2[0]~arr2[k-1]==arr2[ j- k]~arr2[ j-1](3)

if arr2[k]=arr2[ j ]

则 arr2[0]~arr2[k-1]+ar2[k]==arr2[ j- k]~arr2[ j-1]+arr2[ j ]

即 arr2[0]~arr2[k]==arr2[ j- k]~arr2[ j](4)

(3)可得next[i].所以在arr2[k]=arr2[ j ]条件下,(4)得next[ j+1]=k+1 ((3)和(4)对比一下即可)

if arr2[k]!=arr2[ j ]

让k充当j继续回退!直到找到一个arr2[k]=arr2[ j ]!然后next[i+1]=k+1

只要分析一下无论是哪个回退点,都有arr2[0]~arr2[k-1]==arr2[start]~arr2[ j-1], arr2[0]~arr2[k-1]是哪个回退点产生并不重要,重要的是只要找到arr2[k]=arr2[ j ],我们就可以next[i+1]=k+1.

如果回退到0位还没有arr2[k]=arr2[ j ]怎么办?

next[0]=-1;

然后直接next[ j+1]=k+1=0;(也许是归纳法,哪位大佬解释一下-_-)

准备完毕,上代码:

OVER!

关注

36
点赞
踩
34

收藏

觉得还不错? 一键收藏
8
评论
最容易理解的KMP算法推演(包括next数组的理论推导)

,如果连arr1[start]~arr1[i-1]都匹配不上也就没必要继续了(自己举个反例子体会一下).而arr1[start]~arr1[i-1]匹配的一部分模式串为arr2[0]~arr2[i-start],即arr1[start]~arr1[i-1]==arr2[0]~arr2[i-start]又因为arr1[0]~arr1[i-1]==arr2[0]~arr[ j-1],所以必有arr1[start]~arr1[i-1]==arr2[start]~arr2[ j-1]
复制链接

扫一扫

无小道 CSDN认证博客专家 CSDN认证企业博客

码龄1年

27: 原创

22万+: 周排名

4万+: 总排名

1万+: 访问

: 等级

664: 积分

304: 粉丝

392: 获赞

13: 评论

282: 收藏

私信

关注

热门文章

最新评论

c++--函数重载
CSDN-Ada助手: 恭喜博主写出了第10篇博客，标题为“c++--函数重载”，内容必定精彩纷呈！希望博主能继续保持创作的热情和耐心，不断输出优质的内容。或许下一步可以深入探讨c++中其他重要概念，比如指针和引用的使用，或者模板的应用等，相信会为读者带来更多收获。期待您更多的作品！
——排序算法
CSDN-Ada助手: 恭喜作者发布了关于排序算法的博客，阅读后收获颇丰。希望作者能够继续保持创作的热情，不断分享更多有趣的知识和经验。建议下一步可以尝试探讨一些高级排序算法或者与排序算法相关的实际应用案例，相信读者们也会对此感兴趣。期待作者的更多精彩内容！愿您创作愉快！
文件操作干货
CSDN-Ada助手: 恭喜用户发布了第6篇博客《文件操作干货》！内容相信会给读者带来很多收获和启发。希望用户可以继续坚持创作，分享更多有价值的知识和经验。下一步可以考虑结合实际案例，深入探讨文件操作的技巧和应用场景，这样会更具吸引力和实用性哦。期待用户的更多精彩内容！加油！
最容易理解的KMP算法推演(包括next数组的理论推导)
熵减玩家: 优质好文，博主的文章细节很到位，兼顾实用性和可操作性，感谢博主的分享，期待博主持续带来更多好文！
动态内存管理的干货
CSDN-Ada助手: 恭喜用户发布了“动态内存管理的干货”博客！内容相当有深度，对于动态内存管理这一复杂主题进行了深入的剖析，让读者受益匪浅。希望用户能继续保持创作的热情和耐心，坚持分享自己的知识和见解。或许下一步可以考虑结合实际案例或者应用场景，让读者更易于理解和接受，期待用户的下一篇作品！

大家在看

最新文章

目录

评论 8

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。