KMP算法

KMP算法

1.KMP算法简介

KMP算法是一种改进的字符串匹配算法,由D.E.Knuth,J.H.Morris和V.R.Pratt同时发现,因此人们称它为克努特——莫里斯——普拉特操作(简称KMP算法)。KMP算>> 法的关键是利用匹配失败后的信息,尽量减少模式串与主串的匹配次数以达到快速匹配的目的。具体实现就是实现一个next()函数,函数本身包含了模式串的局部匹配>> 信息。时间复杂度O(m+n)。

2.KMP算法与确定性有限状态自动机DFA

2.1 DFA与KMP算法

子串查找问题通常会存在两个字符串,一个是原串s, 另一个是模式串p,设m = len(s), n = len(p)并且通常m >> n

对于子串查找问题,很朴素、直接的一个解法就是暴力求解法,即从s中的第0个字符开始,将原串s中的每一个字符和模式串p的每一个字符进行比较,若全部匹配成功,则返回;否则,则从s中的第1个字符开始,重复之前的比较操作直到到达s的最后一个字符;

从上述的描述中易得出 暴力解法 的时间复杂度是O(nm),暴力解法的缺点:
- 时间复杂度高;
- 不适用于字符流的情况;当原串s是字符流(例如网络字符)的时候,该解法存在回溯,若不加额外的缓存,是不能用于此类问题的;

但是,大多数情况下,原串和模式串都比较小,也都不是字符流的情况,而采用高级算法通常都用一些预处理的过程,对于小规模问题这都是不划算的,因此暴力解法还是很常用的,比如jdkindexOf()就是采用暴力解法实现的。

从暴力解法的描述可以看出,当从s的字符i开始,与模式串p逐字符比较时,若在i+k处发生失配时,指向s的指针是需要回溯到i+1继续逐字符比较,而没有利用好已经匹配好的k个字符。

KMP算法解决的问题是:当发生字符失配的时候,不回溯指针i。这样就能克服 暴力解法 的两个缺点。

KMP算法核心的思想是:当发生字符失配的时候,充分利用已经匹配成功的k个字符的信息,避免指针i的回溯

KMP算法可以用确定性有限状态机DFA来直观的阐述。
DFA
- 包含有限的状态(包括开始和停止)
- 每一个字符只发生一次状态的转移
- 如果一系列的状态转移到了停止状态,则匹配成功

关键在于如何根据模式串p构建DFA,略。

2.2 DFA子串查找

public class DFASubStringSearchDemo {
   
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值