KMP算法笔记

KMP算法原理

Next数组

Next数组在KMP算法中也叫做最长前缀后缀表,通过特定方法生成。

对于需要KMP匹配的模式串,构造next数组需要以下方法:

例如字符串 abcabdcaba

对于人工分析,我们进行如下拆分前缀和后缀

在这里插入图片描述

人工分析

我们发现对于一个模式串前缀和后缀存在相同字符串的中 相同字符串中的字符对个数 就为该段字符串对应的最长公共前后缀的长度,一个一个拆分字符是模拟计算机中一个一个遍历。

计算机角度分析

上一部分是对于人眼最直观的认识,那么计算机中怎么去求出这个Next数组呢?

我们首先来模拟程序中遍历字符串的过程

在这里插入图片描述

可以看见,指针在往右移动的过程中,指针走过的区域是不是就和上面所说的区域对应起来了?

  • a
  • ab
  • abc
  • ······

但这只是指针所走过的区域,说到底指针指向的只有一个字符,前面的字符过了就过了,怎么样才能从指针的遍历过程中来确定每一段前后缀的最长公共前后缀呢?

首先,对于模式串的第一个前缀位置,也就是当指针指向第一个字符的时候,该位置只有一个字符``,所以肯定为0。

对于第二个前缀ab ,根据目前的情况我们可以用当前指针加上偏移量来进行对比,如果不相同则该前缀对应的最长公共前后缀也为0。

但是对于第三种情况就出现问题了abc 我们需要对比ac ,以及abbc,这样用偏移就会很麻烦,哪怕用双指针也很麻烦。

那么我们根据已知信息能不能方便后面的计算呢?

进一步分析

abc前缀的前面,我们已经计算了ab的最长公共前缀为0,这意味着前面两个字符不同,那么对于三个字符的前缀,最长公共前后缀已不可能为2。那么我们需要参考最长公共前后缀为1的情况进行对比。也就是从最短的前缀和后缀进行对比,对比ac发现对不上,则该位置也为0。

那么我们来看看下面几种情况

  • abca 已知前面abc前缀的最长公共前后缀依然是0,那么退而求其次,对比最短前缀然后递增

  • 为了每次我们对比前缀和后缀,那么需要两个指针x , y

    • 对比aa 发现相等,之前已知abc中没有相等的前后缀, x
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
KMP算法是一种字符串匹配算法,用于在一个文本串S内查找一个模式串P的出现位置。它的时间复杂度为O(n+m),其中n为文本串的长度,m为模式串的长度。 KMP算法的核心思想是利用已知信息来避免不必要的字符比较。具体来说,它维护一个next数组,其中next[i]表示当第i个字符匹配失败时,下一次匹配应该从模式串的第next[i]个字符开始。 我们可以通过一个简单的例子来理解KMP算法的思想。假设文本串为S="ababababca",模式串为P="abababca",我们想要在S中查找P的出现位置。 首先,我们可以将P的每个前缀和后缀进行比较,得到next数组: | i | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | | --- | - | - | - | - | - | - | - | - | | P | a | b | a | b | a | b | c | a | | next| 0 | 0 | 1 | 2 | 3 | 4 | 0 | 1 | 接下来,我们从S的第一个字符开始匹配P。当S的第七个字符和P的第七个字符匹配失败时,我们可以利用next[6]=4,将P向右移动4个字符,使得P的第五个字符与S的第七个字符对齐。此时,我们可以发现P的前五个字符和S的前五个字符已经匹配成功了。因此,我们可以继续从S的第六个字符开始匹配P。 当S的第十个字符和P的第八个字符匹配失败时,我们可以利用next[7]=1,将P向右移动一个字符,使得P的第一个字符和S的第十个字符对齐。此时,我们可以发现P的前一个字符和S的第十个字符已经匹配成功了。因此,我们可以继续从S的第十一个字符开始匹配P。 最终,我们可以发现P出现在S的第二个位置。 下面是KMP算法C++代码实现:

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值