算法强化 ——KMP

KMP算法是一种在主串不回溯的字符串匹配算法,利用部分匹配表(PMT,又称next数组)避免重复比较。PMT值表示字符串前缀和后缀集合的交集中最长元素的长度。在匹配过程中,若失配,则根据next数组值移动模式字符串的指针,以加速查找。构建next数组的过程类似字符串匹配,从模式字符串的第二位开始,找到最长相同前后缀的长度作为next值。
摘要由CSDN通过智能技术生成

KMP

KMP是一种空间换时间的算法,特点是主串的指针不往回走,利用存储好的信息,避免重复的运算
要利用的信息存储在 部分匹配表(Partial Match Table)PMT

char a b a b a b c a
index 0 1 2 3 4 5 6 7
value 0 0 1 2 3 4 0 1

PMT

PMT中的值是字符串的前缀集合与后缀集合的交集中最长元素的长度。

例如:对于“aba”,它的前缀集合为{“a”,“ab”},后缀集合为{“ba”“a”}。
两个集合的交集为{“a”},那么长度最长的元素就是字符串"a"了,长度为1,所以对于"aba"而言,它在PMT表中对应的值就是1。

再比如,对于字符串"ababa",它的前缀集合为{“a”,“ab”,“aba”,“abab”},它的后缀集合为{“baba”,“aba”,“ba”,“a”},两个集合的交集为{“a”,“aba”},其中最长的元素为"aba",长度为3

PMT表怎么用

要在主字符串"ababababca"中查找模式字符串"abababca"。如果在j处字符串不匹配,那么由于前面所说的模式字符串PMT的性质,主字符串中i指针之前的PMT[j-1]位就一定与模式字符串的第0位至第PMT[j-1]位是相同的。

这是因为主字符串在i位失配,也就意味着主字符串从i-j到i这一段是与模式字符串的0到j这一段是完全相同的。而我们上面也解释了,模式字符串从0到j-1,在这个例子中就是"ababab",其前缀集合与后缀集合的交集的最长元素为"abab",长度为4。

所以就可以断言,主字符串中i指针之前的4位一定与模式字符串的第0位至第4位是相同的,即长度为4的后缀与前缀相同。这样一来,我们就可以将这些字符段的比较省略掉。

具体做法是,保持i指针不动,然后将j指针指向模式字符串的PMT[j-1]位即可。简而言之,以图中的例子来说,在i处失配,那么主字符串和模式字符串的前面6位就是相同的。又因为模式字符串的前6位,它的前4位后缀和后4位后缀是相同的,所以我们推知主字符串i之前的4位和模式字符串开头的4位是相同的。就是图中灰色部分。那么这部分就不用再比较了
# 插图
有了上面的思路,我们就可以使用PMT加速字符串的查找了。我们看到如果实在j位失配,那么影响j指针回溯的位置其实是第j-1位的PMT值,所以为了编程的方便,我们不直接使用PMT数组,而是将PMT数组向后偏移一位。我们把新得到的这个数组称为next数组

根据next数组进行字符串匹配加速的字符串匹配程序。其中要注意的一个技巧是,在把PMT进行向右偏移时,第0位的值,我们将其设成了-1,这只是为了编程的方便,并没有其他的意义。next数组如下表所示。

char a b a b a b c a
index 0 1 2 3 4 5 6 7
pmt 0 0 1 2 3 4 0 1
next -1 0 0 1 2 3 4 0
def KMP(self,t
KMP算法是一种字符串匹配算法,用于在一个文本串S内查找一个模式串P的出现位置。它的时间复杂度为O(n+m),其中n为文本串的长度,m为模式串的长度。 KMP算法的核心思想是利用已知信息来避免不必要的字符比较。具体来说,它维护一个next数组,其中next[i]表示当第i个字符匹配失败时,下一次匹配应该从模式串的第next[i]个字符开始。 我们可以通过一个简单的例子来理解KMP算法的思想。假设文本串为S="ababababca",模式串为P="abababca",我们想要在S中查找P的出现位置。 首先,我们可以将P的每个前缀和后缀进行比较,得到next数组: | i | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | | --- | - | - | - | - | - | - | - | - | | P | a | b | a | b | a | b | c | a | | next| 0 | 0 | 1 | 2 | 3 | 4 | 0 | 1 | 接下来,我们从S的第一个字符开始匹配P。当S的第七个字符和P的第七个字符匹配失败时,我们可以利用next[6]=4,将P向右移动4个字符,使得P的第五个字符与S的第七个字符对齐。此时,我们可以发现P的前五个字符和S的前五个字符已经匹配成功了。因此,我们可以继续从S的第六个字符开始匹配P。 当S的第十个字符和P的第八个字符匹配失败时,我们可以利用next[7]=1,将P向右移动一个字符,使得P的第一个字符和S的第十个字符对齐。此时,我们可以发现P的前一个字符和S的第十个字符已经匹配成功了。因此,我们可以继续从S的第十一个字符开始匹配P。 最终,我们可以发现P出现在S的第二个位置。 下面是KMP算法的C++代码实现:
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值