深入理解KMP算法

写在最前面

早在大二我就想写一篇KMP的总结,主要是因为大部分blog上的文章有着各种各样的不足:有的过于冗长,有的学习曲线太陡,而《挑战》和《算法竞赛》上相关部分都因为字符串相关的内容过多,KMP算法部分不甚详尽。但是当时没有发在blog上,因为感觉从next数组谈起的话,算法的推导总会很奇怪、不顺畅。
时隔两年,花了两天时间,重新梳理了逻辑,缀字成文。

这里是我的个人网站:
https://endlesslethe.com/kmp-tutorial.html
有更多总结分享,最新更新也只会发布在我的个人网站上。
排版也可能会更好看一点=v=

KMP算法有什么用

在文本编辑中,我们经常要在一段文本(text)中找到一串我们想要的字符串(即模板,pattern)的位置。由此,便产生了字符串的匹配问题。而KMP就是为高效解决这一问题提出来的。
kmp1

事实上,KMP算法的运行速度和理解的难度都高于其他的单文本单模板匹配算法。但是KMP算法在Tier树上扩展得到的AC自动机算法,是解决单文本多模板匹配的不二法门。如果读者有志于ACM竞赛的话,KMP算法是不能不理解的基础内容。

基础定义

这里简单地定义几个基础的名词,随着推导的深入,新的名词会在文中给出定义。

  • 文本较长,模板较短。我们在文本链上查找模板链。
  • 文本用T表示,长度为n。模板用P表示,长度为m。
  • 文本指针:一个指针,它在文本串上从头到尾一位一位地移动, 指向文本第一个未比较的字符,用i表示。文本指针的编号从0开始。
  • 模板指针:一个指针,它在模板链上移动,指向模板第一个未比较的字符,用j表示。模板指针的编号也从0开始。
  • 匹配:当它作为动词时,指T[i] == P[j](且前面若干个字符也存在T[i’] == P[j’]),这是针对一个字符而言,其与失配对应。当它作为名词时,指的是T的某个子串与P一一对应,即匹配了恰好m次,称为一个匹配。
  • 失配:指T[i] != P[j],虽然前面的若干个字符都匹配,但在这个字符不能匹配。
  • 已匹配模板链:当失配发生时,前面若干个已经匹配的字符,称之为已匹配模板链。

先看一个朴素算法

我们不难由“判断两个字符串是否相等”入手,从T[0]开始向后比较len§个字符,如果相等,则找到一个匹配。如果不相等,则继续从T[1]开始比较。
这样的时间复杂度为O((N-M&#

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值