KMP

论这曾经那么烧心的KMP。。。

其实我看它的基本思想也看了挺久时间,其实,也就那么回事,只是说可能自己的思维和简单的总结性语言跟代码有点不一样。


两个字符串,一个主串a,一个模式串b。将模式串与主串相匹配,如果有匹配的部分,就返回匹配成功的位置。


传统的暴力方法是:从a[0]开始匹配,匹配不成功,再依次从a[1],a[2]...a[i]开始匹配,这样算法的时间复杂度是O(nm),显然是很容易超时的。所以有了KMP算法。


KMP能够在每次匹配不成功以后使模式串移动最大的距离,从而减少了匹配次数。比如说:

    abcabsbdbc

    abcabc

    在模式串的c处匹配不成功的时候,可以将模式串向右移动3的距离,像这样:

    abcabsbdbc

          abcabc

这样就增大的每次模式串向右移动的距离。所以呢,这就需要计算模式串中从开始到每一个位置的最大公共前后缀长度,并把这个长度保存在next数组中。


有一点要进行说明,就是字符串数组是从b[0]开始计算的,而next[]数组是从next[0]开始的,next[i]表示从b[0]到b[next[i]]的最长公共前后缀的长度。


下面就说怎么样计算一个字符串的next数组的值:


    可以通过继承的思想来计算(在我看来有点像动态规划),当计算next[i+1]的时候,要先看next[i]的值。然后将b[i]与b[next[i]]的字符相比较,如果相等,next[i+1]就等于next[i]+1。

  比如说:

  b        0 1 2 3 4 5

            a b c a b c

next     0 1 2 3 4 5

            0 0 0 1 2 **--->3

到b[5]==c的时候,就来看next[4]=2,所以就拿b[5]和b[next[4]]即b[2]来比较,比较结果为相等,所以next[5]=next[4]+1=3。


那么问题来了,通过继承这种方法来算,如果b[i+1]与b[next[i]]相等的话自然好说,但是要是二者不相等该怎么办呢?就在这里我看了好久,不过实际上只要举个实际例子就好理解多了。


  看了很多博客的解释是这样的,要去比较b[i+1]和b[next[next[i]-1]]相比较,这样看当然不好理解,那就来看一个例子。

 b        0  1  2  3  4  5  6  7  8  9  10  11

           a  b  t   a  b  c  a  b  t   a   b    t

next    0  1  2  3  4  5  6  7  8  9  10  11

           0  0  0  1  2  0  1  2  3  4   5  

当计算next[11]的时候,显然b[next[10]]=b[5]=c不等于t,这时候就不要管b[11]之前最大公共前后缀为5 的那个长度了,而是要讨论他这个公共前后缀(即abtab)的最大公共前后缀的长度了,这样就是放弃了较长的公共前后缀,寻找较短的公共前后缀。于是,拿b[i+1]与b[next[next[i]-1]]相比较,如果相等,b[i+1]就等于next[next[i]-1]+1。那么反应到上面的例子里就是,拿b[11]与b[next[next[10]-1]]也就是b[11]与b[2]相比较,相等,b[11]就等于2+1等于3。


  这样呢,计算完next数组了,每次匹配不成功的时候,将模式串向右移动“已经匹配的字符串长度i减去next[i-1]”的距离。

还是举这个例子:

                0 1 2 3 4 5 6 7 8 9

  a      a b c a b s b d b c

  b      a b c a b c

next   0 0 0 1 2 0

 到了a[5]和b[5]的时候匹配失败,然后模式串向右移动5-nextp[4]=5-2=3的距离。



  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
我们这里说的KMP不是拿来放电影的(虽然我很喜欢这个软件),而是一种算法。KMP算法是拿来处理字符串匹配的。换句话说,给你两个字符串,你需要回答,B串是否是A串的子串(A串是否包含B串)。比如,字符串A="I'm matrix67",字符串B="matrix",我们就说B是A的子串。你可以委婉地问你的MM:“假如你要向你喜欢的人表白的话,我的名字是你的告白语中的子串吗?” 解决这类问题,通常我们的方法是枚举从A串的什么位置起开始与B匹配,然后验证是否匹配。假如A串长度为n,B串长度为m,那么这种方法的复杂度是O (mn)的。虽然很多时候复杂度达不到mn(验证时只看头一两个字母就发现不匹配了),但我们有许多“最坏情况”,比如,A= "aaaaaaaaaaaaaaaaaaaaaaaaaab",B="aaaaaaaab"。我们将介绍的是一种最坏情况下O(n)的算法(这里假设 m<=n),即传说中的KMP算法。 之所以叫做KMP,是因为这个算法是由Knuth、Morris、Pratt三个提出来的,取了这三个人的名字的头一个字母。这时,或许你突然明白了AVL 树为什么叫AVL,或者Bellman-Ford为什么中间是一杠不是一个点。有时一个东西有七八个人研究过,那怎么命名呢?通常这个东西干脆就不用人名字命名了,免得发生争议,比如“3x+1问题”。扯远了。 个人认为KMP是最没有必要讲的东西,因为这个东西网上能找到很多资料。但网上的讲法基本上都涉及到“移动(shift)”、“Next函数”等概念,这非常容易产生误解(至少一年半前我看这些资料学习KMP时就没搞清楚)。在这里,我换一种方法来解释KMP算法。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值