KMP算法

一、问题描述

给定一个主串S及一个模式串P,判断模式串是否为主串的子串;若是,返回匹配的第一个元素的位置(序号从1开始),否则返回0;如S=“abcd”,P=“bcd”,则返回2;S=“abcd”,P=“acb”,返回0。

二、朴素算法

最简单的方法即一次遍历S与P。以S=“abcabaaaabaaacac”,P="abaabcac"为例,用如下动图模拟朴素算法:

三、改进的算法——KMP算法

朴素算法理解简单,但两个串都有依次遍历,时间复杂度为O(n*m),效率不高。由此有了KMP算法。

一般的,在一次匹配中,我们是不知道主串的内容的,而模式串是我们自己定义的。

朴素算法中,P的第j位失配,默认的P串后移一位

但在前一轮的比较中,我们已经知道了P的前(j-1)位与S中间对应的某(j-1)个元素已经匹配成功了。这就意味着,在一轮的尝试匹配中,我们get到了主串的部分内容,我们能否利用这些内容,P多移几位(我认为这就是KMP算法最根本的东西),减少遍历的趟数呢?答案是肯定的。再看下面改进后的动图:

这个模拟过程即KMP算法,估计没有看明白,所以首先理解需要把P多移几位,然后回头再看一遍这个图就很明了了。

相比朴素算法:

朴素算法:每次失配,S串的索引i定位的本次尝试匹配的第一个字符的后一个。P串的索引j定位到1T(n)=O(n*m)

KMP算法:每次失配,S串的索引i不动,P串的索引j定位到某个数T(n)=O(n+m),时间效率明显提高

而这“定位到某个数”,这个数就是接下来引入的next。(实际上也就是P往后移多少位,换一种说法罢了:从上图中也可以看出,失配时固定i不变,令S[i]与P[某个数]对齐,实际上是P右移几位的另一种表达。)

为了表示下一轮比较j定位的地方,我们将其定义为next[j],next[j]就是第j个元素前j-1个元素首尾重合部分个数加一,当然,为了能遍历完整,首尾重合部分的元素个数应取到最多,即next[j]应取尽量大的值

四、手动写出一个串的next

我们规定任何一个串,next[1]=0。(不用next[0],与串的所有对应),仍是一张动图搞定问题:

通过上述分析可以得出next函数的公式:

注:上述动图忘记在哪里保存的了,这篇文章主要是记录学习过程。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值