深入探讨KMP

KMP网上已经有很多资料了,详细的模拟过程,这里就不展开讲了。这篇文章主要是探讨如何构造next[]数组匹配复杂度的证明KMP的缺陷以及该如何改进算法使得性能更优。

一、KMP匹配代码

int match (char* P, char* T) {

    int* next = buildNext(P);
    int n = (int) strlen(T), i = 0;
    int m = (int) strlen(P), j = 0;

    while ( j < m && i < n) {
        if ( j < 0 || T[i] == P[j]) {
            i++;
            j++;
        }
        else {
            j = next[j]
        }
    }
    
    delete [] next;
    return i - j
}

 

二、next[j]含义

next[j]表示j前面前缀跟后缀相等的最长长度

 

三、如何构造next[]

思路:已知next[j] = t  ==>  求next[j+1] = ?

  1. 若P[j] == P[next[j]],则next[j+1] = t+1
  2. 若P[j] != P[next [ j ]],则在j前面找前缀跟后缀相等的次长长度,即t前面的最长长度:next[t],即next[next[j]]  ==>两步走:若P [j] == P [next [ next[ j ] ] ],则next[j+1] = next[ next[ j ] ] + 1;若P [j] != P [next [ next[ j ] ] ],则在j前面找次次长,即next[ next[ next[j] ] ]...直到找到next[ next[ .... ] ] = -1为止

例子:如下图,j = 7,已知next[7] = 3,求next[8]

int* buildNext( char* P){
    int m = (int) strlen(P), j = 0;
    int* N = new int[m];
    int t = N[0] = -1;
    
    while( j < m-1 ){
        if( t < 0 || P[j] == P[t]){
            j++; t++;
            N[j] = t;
        }
        else{
            t = N[t];    //失配
        }
    }

    return N;
}

 

四、匹配复杂度证明

i:T串实际匹配位置

i':P串的头对应的T的位置

  1. 若T[i] == P[j],则i++,j++  ==> i 往前移动
  2. 若T[i] != P[j],则j = next[j]  ==>  i' 往前移动

综上:每一次匹配,总有 i 往前移动,或者 i' 往前移动

0 <= i < n,0 <= i' < n-m <= n-1(m至少为1)

所以复杂度为:O(2n-1),即O(n)

 

五、KMP的缺陷

  1. 若T[i] == P[j]  ==> i++,j++  ==> 没问题
  2. 若T[i] != P[j]   ==>  j = next[j]  ==> T[i] ? P[j]

针对第二种情况,若P[j] == P[next[j]],则会多出一次无效的比较,若P[j] == P[next[next[j]]],则会多出两次无效的比较...

显然,在构造next[]的时候就可以避免掉这种问题,直接跳过那些与P[j]相等的点。

 

六、如何改进KMP

int* buildNext( char* P){
    int m = (int) strlen(P), j = 0;
    int* N = new int[m];
    int t = N[0] = -1;
    
    while( j < m-1 ){
        if( t < 0 || P[j] == P[t]){
            j++; t++;
            N[j] = ( P[j] != P[t] ? t: N[t]); // 在找N[t]的时候已经满足P[t]!=P[N[t]]
        }
        else{
            t = N[t];    //失配
        }
    }

    return N;
}

 

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
KMP算法是一种字符串匹配算法,用于在一个字符串中查找另一个较短的模式串的出现位置。它的实现基于两个关键概念:部分匹配表和最大匹配前缀后缀数组(next数组)。通过构建next数组,KMP算法能够在失配时将模式串跳过一定长度,从而提高了匹配的效率。 在给定的引用内容中,有几个代码片段涉及到了使用Python实现KMP算法。这些代码分别是通过暴力搜索、利用next数组进行匹配以及计算next数组的实现。暴力搜索算法的时间复杂度为O(m*n),而KMP算法的时间复杂度为O(m+n),其中m为主串的长度,n为模式串的长度。 在KMP算法中,next数组记录了模式串中每个位置之前的最长公共前缀和最长公共后缀的长度。通过根据next数组的值来调整模式串的位置,KMP算法能够避免不必要的比较,从而提高匹配效率。 因此,Python中的KMP算法可以通过构建next数组来实现,在匹配过程中根据失配时的next值进行模式串的调整,直到找到匹配位置或匹配失败。这样可以在较短的时间内找到模式串在主串中的位置。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* [KMP算法(python)](https://download.csdn.net/download/weixin_38618540/14854290)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] - *2* *3* [KMP算法(Python)](https://blog.csdn.net/m0_52238102/article/details/115830347)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值