探索KMP算法

最新推荐文章于 2023-10-14 12:55:15 发布

吹石柳生

最新推荐文章于 2023-10-14 12:55:15 发布

阅读量561

点赞数 1

分类专栏：语言技巧

语言技巧专栏收录该内容

31 篇文章 0 订阅

订阅专栏

文章转自：http://blog.csdn.net/v_july_v/article/details/7041827

作者：July

记得第一次接触KMP算法的时候是在初中，那个时候搞NOIP的竞赛。直到上了高中搞NOI，都一直没有搞清楚KMP算法的原理。现在正好有时间，可以理一理对KMP算法的理解。

KMP算法大家应该不陌生，主要的精髓集中在对Next[ ]数组的求解，下面借助大神JULY的文章，一起研究研究高大上的KMP算法。

咱们首先给出KMP算法的结论：

1.假设现在S串匹配到 i 位置，T串匹配到 j 位置

如果当前字符匹配成功，即S[i] == T[j] 令i++，j++，继续匹配下一个字符；

如果失配，即S[i] != T[j] 令i不变，j = next[j]，(next[j] <= j - 1)，即模式串T相对于原始串S向右移动了至少1位

（换言之，当匹配失败时，模式串向右移动的位数为：失配字符所在位置 - 失配字符对应的next 值，即移动的实际位数：j-next[j] >= 1）

步骤

①寻找最长前缀、后缀
- 对于Pj = p0 p1 ...pj-1 pj，查找字符串Pj的最大相等k前缀和k后缀
  - 即查找满足条件的最大的k，使得p0 p1 ...pk-1 pk = pj-k pj-k+1...pj-1 pj

②求next数组
- 根据第①步骤中求得的各个最大前缀后缀的公共元素长度求得next 数组，相当于前者右移一位且初值赋为-1

③匹配失配
- 向右移动位数：j - next[j] (注：j 是位置，next数组中，j 从0开始计数。)

接下来，分别具体阐述这3个步骤。

前缀后缀

如果给定一个字符串：“ABCDABD”，那么其各个前缀后缀字符串分别如下表格所示：

也就是说，原字符串对应的各个前缀后缀的公共元素的最大长度表为（ 下简称最大长度表）：

基于《最大长度表》匹配

下面，咱们就结合之前的最大长度表和上述结论，进行字符串的匹配。给定如下图所示的原始串和模式串

因为模式串中首尾可能会有重复的字符，故可得出下述结论：

失配时，模式串向右移动的位数为：已匹配字符数 - 失配字符的上一位字符所对应的最大长度值

①当模式串最后一个字符D跟原始串匹配时失配，显而易见，模式串需要向右移动。但向右移动多少位呢？
- 如果利用最原始的朴素匹配算法，那么把模式串不断的向右移动一位，直到全部字符实现匹配；
- 事实上，因为此时已经匹配的字符数为ABCDAB，然后根据《最大长度表》可得字符B对应的长度值为2，所以根据之前的结论，可知需要向右移动6 - 2 = 4 位。

②模式串向右移动4位后，发现C处再度失配，因为此时已经匹配了AB两个字符，且上一个字符B对应的最大长度值为0，所以向右移动：2 - 0 =2 位。

③A与空格失配，向右移动一位。

④继续比较，发现D与C 失配，故向右移动的位数为：已匹配的字符数减去上一位字符B对应的最大长度，即向右移动6 - 2 = 4 位。

⑤经历第④步后，发现匹配成功，过程结束。

最大长度表引出next 数组

由上文，我们已经知道，字符串“ABCDABD”各个前缀后缀的最大公共元素长度分别为：

而且，根据这个表可以得出下述结论

失配时，模式串向右移动的位数为：已匹配字符数 - 失配字符的上一位字符所对应的最大长度值

上文利用这个表和结论进行匹配时，我们发现，当匹配到一个字符失配时，其实没必要考虑当前失配的字符，更何况我们每次失配时，都是看的失配字符的上一位字符对应的最大长度值。如此，便引出了next 数组。

给定字符串“ABCDABD”，可求得它的next 数组如下：

把next 数组跟之前求得的最大长度表对比后，不难发现，next 数组相当于“最大长度值” 整体向右移动一位，然后初始值赋为-1。意识到了这一点，你会惊呼原来next 数组的求解竟然如此简单！从而有

失配时，模式串向右移动的位数为：失配字符所在位置 - 失配字符对应的next 值

而后，你会发现，无论是基于最大长度表的匹配，还是基于next 数组的匹配，两者得出来的向右移动的位数是一样的。不信的话，咱们可以来看看具体过程。

基于《next 数组》匹配

下面，我们来基于next 数组进行匹配。

①匹配到字符D时失配，由于 j 从0开始计数，故数到失配的字符D时 j 为6，且字符D对应的next 值为2，所以向右移动的位数为：j - next[j] = 6 - 2 =4 位

②向右移动4位后，C再次失配，向右移动：j - next[j] = 2 - 0 = 2 位

③移动两位之后，A 对应着空格导致不匹配，再次后移一位

④D处失配，向右移动 j - next[j] = 6 - 2 = 4 位

⑤匹配成功，过程结束。

匹配过程一模一样。也从侧面佐证了，next 数组确实是只要将各个最大前缀后缀的公共元素的长度值右移一位，且把初值赋为-1 即可。

基于《最大长度表》与基于《next 数组》等价

其实，利用next 数组进行匹配失配时，模式串向右移动 j - next [ j ] 位，等价于已匹配字符数 - 失配字符的上一位字符所对应的最大长度值。为什么呢？

j 从0开始计数，那么当数到失配字符时，j 的数值就是已匹配的字符数；
由于next 数组是由最大长度值表整体向右移动一位（且初值赋为-1）得到的，那么失配字符的上一位字符所对应的最大长度值，即为当前失配字符的next 值。

那为何本文不直接利用next 数组进行匹配呢？因为next 数组不好求，而一个字符串的前缀后缀的公共元素的最大长度值很容易求，例如若给定字符串“abab”，要你求其next 数组，则乍一看，无从求起，而要你求其前缀后缀公共元素的最大长度，则很容易得出是：0 0 1 2，如下表格所示：

然后这4个数字全部整体右移一位，且初值赋为-1，即得到其next 数组：-1 0 0 1。

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
探索KMP算法

记得第一次接触KMP算法的时候是在初中，那个时候搞NI
复制链接

扫一扫

专栏目录

吹石柳生 CSDN认证博客专家 CSDN认证企业博客

码龄13年

64: 原创

26万+: 周排名

228万+: 总排名

7万+: 访问

: 等级

1408: 积分

8: 粉丝

11: 获赞

4: 评论

27: 收藏

私信

关注

热门文章

分类专栏

最新评论

MR素性检测算法
吹石柳生回复 _Yangtze: Miller-Rabin算法随机生成底数a，进行多次调用函数进行测试，Miller-Rabin检测也存在伪素数的问题，但是与费马检测不同，MR检测的正确概率不依赖被检测数p，而仅依赖于检测次数。已经证明，如果一个数p为合数，那么Miller-Rabin检测的证据数量不少于比其小的正整数的3/4，换言之，k次检测后得到错误结果的概率为(1/4)^k。我们在实际应用中一般可以测试15~20次。 ----------------- 使用前请先了解原理
MR素性检测算法
_Yangtze: 错的，才四万多的素数就完全检测不对了
关于某某大学校园网认证系统的一些工作
Lriko: 学长,我准备弄一个安卓端的登录器,现在问题是post之后返回的是异常Url.学长知道怎么弄吗?
关于某某大学校园网认证系统的一些工作
留一个明天: 新手本来想用java弄个数字XX登录器，没想到遇到了学长，能不能提供一下思路，就是登录表单有四个属性。第一个是用户名，这个没有问题。第二个是密码，用到了RSA加密算法，我是不是应该把我本身的密码用这个去加密，好像他每次加密之后的结果是一样的。第三个brasAddress,应该和路由器有关系，应该到哪里去获取这个值呢？第四个应该是本机的ipv4地址，这个应该能够拿到。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。