KMP 字符串匹配算法 (Python)

本文详细介绍了KMP算法,包括暴力匹配过程、时间复杂度分析,以及前缀函数(next数组)的概念和求解方法。通过构造字符串和计算前缀函数,KMP算法能在O(n+m)时间内查找模式串在主串中的所有出现位置。
摘要由CSDN通过智能技术生成

KMP / 模式匹配

暴力匹配所有起始位置

时间复杂度: O ( m n ) O(mn) O(mn)

    for i in range(len_s - len_p + 1):
        ii, j = i, 0
        while j < len_p:
            if s[ii] == p[j]: ii, j = ii + 1, j + 1
            else: break
        if j == len_p: res.append(i)

前缀函数 / next数组

时间复杂度: O ( n ) O(n) O(n),在线算法

对于一个长度为 n n n 的字符串,其前缀函数是一个长度为 n n n 的数组 π \pi π,其中 π ( i ) \pi(i) π(i) 定义:子串 s [ 0 ] ∼ s [ i ] s[0] \sim s[i] s[0]s[i] 中存在的、相等的最长真前缀和真后缀的长度。如果不存在则为0。规定: π [ 0 ] = 0 \pi[0]=0 π[0]=0,因为其不存在真前后缀。

例如:‘aabaaab’ 的 π \pi π 数组为 [0, 1, 0, 1, 2, 2, 3]

求解前缀函数:

  • 相邻的前缀函数值,至多 + 1。 π ( i − 1 ) \pi(i-1) π(i1)表示着前一个状态匹配的最长真前后缀,也是下一个待匹配真前缀的最右元素下标。当且仅当 s [ i ] = s [ π ( i − 1 ) ] s[i]=s[\pi(i-1)] s[i]=s[π(i1)],有 π ( i ) = π ( i − 1 ) + 1 \pi(i) = \pi(i-1)+1 π(i)=π(i1)+1
  • 考虑 s [ i ] ≠ s [ π ( i − 1 ) ] s[i] \ne s[\pi(i-1)] s[i]=s[π(i1)],失配时,希望找到 s [ 0 ] ∼ s [ i − 1 ] s[0] \sim s[i-1] s[0]s[i1] 中,仅次于 π [ i − 1 ] \pi[i-1] π[i1] 的第二长度 j j j,使得在位置 i − 1 i-1 i1 的前后缀性质仍然保持,即 s [ 0 ] ∼ s [ j − 1 ] = s [ i − j ] ∼ s [ i − 1 ] s[0] \sim s[j-1] = s[i-j] \sim s[i-1] s[0]s[j1]=s[ij]s[i1]

​ 实际上,第二长真后缀也完整存在于 当前真前缀 s [ 0 ] ∼ s [ j − 1 ] s[0] \sim s[j-1] s[0]s[j1] 中,即有转移方程: j ( n − 1 ) = π ( j n − 1 ) j^{(n-1)}=\pi(j^n-1) j(n1)=π(jn1)。所以如此往复,要么直到 $s[i]=s[j’] $ ,然后转移到第一种情况;要么直到 j ′ = 0 j'=0 j=0 。两种情况,通过判断 $s[i] $ 是否 s [ j ′ ] s[j'] s[j] 来确定要不要让 j ′ + 1 j'+1 j+1 统一,最后 s [ i ] = s [ j ′ ] s[i]=s[j'] s[i]=s[j]

image.png

def get_pi(s):
    n = len(s)
    pi = [0] * n
    for i in range(1, n):
        j = pi[i - 1] 
        while j > 0 and s[i] != s[j]:
            j = pi[j - 1]
        if s[i] == s[j]: j += 1
        pi[i] = j
    return pi

KMP算法:找出 p p p s s s 中的所有出现

时间复杂度: O ( n + m ) O(n+m) O(n+m),其中 m = l e n ( p ) ,   n = l e n ( s ) m=len(p),~n=len(s) m=len(p), n=len(s)

构造字符串 t = p # s t=p\#s t=p#s,计算其前缀函数 π \pi π。考虑前缀函数 π [ m + 1 ] ∼ π [ n + m ] \pi[m+1]\sim \pi[n+m] π[m+1]π[n+m],其中 $\pi(i)=m $ 的地方,一定完成对模式串 p p p 的匹配。此时, i i i 位于 $t $ 中 s s s 的最后位置,所以原始位置为 i − m + 1 − m − 1 = i − 2 ∗ m i-m+1-m-1 = i - 2 * m im+1m1=i2m

def kmp(p, s):
    res = []
    m, n = len(p), len(s)
    pi = get_pi(p + '#' + s)
    for i in range(m + 1, len(pi)):
        if pi[i] == m: res.append(i - 2 * m)
    return res
  • 37
    点赞
  • 54
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值