浅谈KMP算法的延伸

基础KMP

概况

kmp算法是字符串问题的基本算法,其重要性比肩广搜深搜。许多算法都是kmp的延伸运用。
kmp算法又称“看毛片”算法,是一个效率非常高的字符串匹配算法。不过由于其难以理解,所以在很长的一段时间内一直没有搞懂。虽然网上有很多资料,但是鲜见好的博客能简单明了地将其讲清楚。

适用范围

kmp算法完成的任务是:给定两个字符串O和f,长度分别为n和m,判断f是否在O中出现,如果出现则返回出现的位置。常规方法是遍历a的每一个位置,然后从该位置开始和b进行匹配,但是这种方法的复杂度是O(nm)。kmp算法通过一个O(m)的预处理,使匹配的复杂度降为O(n+m)。
说到这里,kmp的重要性已经凸显出来了。

算法的主要思想

我们首先用一个图来描述kmp算法的思想。在字符串O中寻找f,当匹配到位置i时两个字符串不相等,这时我们需要将字符串f向前移动。常规方法是每次向前移动一位,但是它没有考虑前i-1位已经比较过这个事实,所以效率不高。事实上,如果我们提前计算某些信息,就有可能一次前移多位。假设我们根据已经获得的信息知道可以前移k位,我们分析移位前后的f有什么特点。我们可以得到如下的结论:
A段字符串是f的一个前缀。
B段字符串是f的一个后缀。
A段字符串和B段字符串相等。
所以前移k位之后,可以继续比较位置i的前提是f的前i-1个位置满足:长度为i-k-1的前缀A和后缀B相同。只有这样,我们才可以前移k位后从新的位置继续比较。

核心

所以kmp算法的核心即是计算字符串f每一个位置之前的字符串的前缀和后缀公共部分的最大长度(不包括字符串本身,否则最大长度始终是字符串本身)。获得f每一个位置的最大公共长度之后,就可以利用该最大公共长度快速和字符串O比较。当每次比较到两个字符串的字符不同时,我们就可以根据最大公共长度将字符串f向前移动(已匹配长度-最大公共长度)位,接着继续比较下一个位置。事实上,字符串f的前移只是概念上的前移,只要我们在比较的时候从最大公共长度之后比较f和O即可达到字符串f前移的目的。

代码

#include<cstdio>
#include<iostream>
#include<cstring>
#include<string>
#include<map>
#include<algorithm>
using namespace std;
const int N=100005;
int nxt[N];
int lent,lens;
int tot=0;
char s[N],t[N];
void calcunxt()
{
    int i=0,j=-1;
    nxt[0]=-1;
    while(i<lent)
    {
        if(j==-1||t[i]==t[j])
        {
            i++;j++;
            nxt[i]=j;//记录个数 
        }
        else j=nxt[j];
    }
}//建表 
void kmp()
{
    int i=0,j=0;
    while(i<lens)
    {
        if(j==-1||s[i]==t[j])
        {
            i++;j++;
            if(j==lent)
            {
                tot++;
//              j=nxt[j];
                j=0;
            }
        }
        else j=nxt[j];
    }
}
int main()
{
    int p,ans[N];
    scanf("%d",&p);
    for(int i=1;i<=p;i++)
    {
        tot=0;
        memset(nxt,0,sizeof(nxt));
        scanf("%s",s);
        if (s[0]=='#') break;
        scanf("%s",t);
        lent=strlen(t);lens=strlen(s);
        if(lent>lens)
        {swap(s,t);swap(lent,lens);}
        calcunxt();
        kmp();
//      ans[i]=tot;
        printf("%d\n",tot);
    }
//    for (int i=1;i<=p;i++)
//    printf("%d",ans[i]);
    return 0;
}

这是最最基础的kmp。

延伸一

题目

给出一个敏感词w,和一篇文章p,你的工作很简单,每次找出p 中第一次出现的w,然后将这个w 删掉,然后重复这个过程,直到在p 中找不到w 为止。请你输出最后删减后的文章p。

方法

按照题目要求,很容易想出一个算法,每次做kmp,找到第一次匹配的位置,然后删掉这个匹配,再做kmp。。直到没有匹配为止。删除的时候采取暴力删除的方法,总复杂度是O(len^2)的,但是不能满分!

这里我们可以优化删除。把暴力删除改为一段一段的删除,因为所需的字符串长度是一定的。用visit数组记录删除状态,用pos记录位置,每次从i-1(前一个位置)开始,通过nxt数组所记录的位置一个一个找。

代码

#include<cstdio>
#include<iostream>
#include<cstring>
#include<algorithm>
#include<cmath>
#include<vector>
#include<ctime>
using namespace std;
const int N=300005;
int nxt[N],lent,lens,visit[N];
char ss[N],tt[N];
void calcunxt()
{
    int i=0,j=-1;
    nxt[0]=-1;
    while(i<lent)
    {
        if(j==-1||tt[i]==tt[j])
        {
            i++;j++;
            nxt[i]=j;//记录个数 
        }
        else j=nxt[j];
    }
}//表格记录所有起始位置  
void kmp()
{
    int i=0,j=0;
    while(i<lens)
    {
        for (;;)
        {
            if (visit[i]) i++;
            else break;
        }
        if(j==-1||ss[i]==tt[j])
        {
            i++;j++;
            if(j==lent)
            {
                int pos=i-1;
                j=0;
                for (int x=i-1;x>=i-lent;x--)
                {
                    if (visit[pos])
                    {
                        pos--;
                        x++;
                        continue;
                    }
                    visit[pos--]=1;
                }
                pos=i-lent-1;
                for (int x=1;x<=lent;x++)
                {
                    if (visit[pos]) 
                    {
                        pos--;
                        x--;
                        continue;
                    }
                    pos--;
                    if (pos<0) break;
                }
                i=pos;
                if (i<0) i=0;
            }
        }
        else j=nxt[j];
    }
}
int main()
{

    freopen("sensitive.in","r",stdin);
    freopen("sensitive.out","w",stdout);
    memset(nxt,0,sizeof(nxt));
    scanf("%s",ss);
    scanf("%s",tt);
    lent=strlen(tt);lens=strlen(ss);
    if(lent>lens) 
    {
        char zz[N];
        strcpy(zz,ss);
        strcpy(ss,tt);
        strcpy(tt,zz);
        swap(lens,lent);
    }
//  {swap(ss,tt);swap(lent,lens);}
    memset(visit,0,sizeof(visit));
    calcunxt();
    kmp();
    for (int i=0;i<=lens;i++)
    if (visit[i]!=1) printf("%c",ss[i]);
    return 0;
}

后话

当然,这道题还有许多方法。

方法一

kmp+栈或双向链表。
可以用一个栈来优化这个过程:
从头开始扫描文章,扫描到的每一个字符压入栈,并记录每一个字符匹配到的位置。当发现一个匹配的时候,将匹配的字符出栈。然后从栈顶元素匹配到的位置继续匹配。最后栈中保存的就是结果。

方法二

也可以用双向链表来优化这个过程:
和栈优化的方法类似,只是使用双向链表优化删除匹配串,删除操作变为简单改变匹配位置指针的值。
用栈或者双向链表优化后的复杂度是O(len),可以获得100 分。

延伸二

题目

有的词语常常别有深意,比如hehe可以单纯的表示hehe,也可以表示“excuse me?!”,现给出一段话s,和一个单词t,已知单词t有别有深意,也就是说有两个意思,求s可能有多少个意思?答案对1000000007取模。

方法

KMP+DP
设dp[i]为s长度为i的前缀,有多少种意思,初始情况dp[0]=1。
一般情况下dp[i] = dp[i-1]
如果在s中找到一个t,则t会为s带来新的意思,即是说dp[i] = dp[i-1] + dp[I – lent]。最后输出dp[lens]即可。
如果暴力找出所有t,应该可以得到50分。
我们使用KMP算法快速找到所有s中的t,就可以通过本题。

代码

#include<cstdio>
#include<iostream>
#include<cstring>
#include<string>
#include<map>
#include<algorithm>
using namespace std;
const int N=100005;
const int mod=1000000007;
int nxt[N],dp[N];
int lent,lens;
int tot=0;
char s[N],t[N];
void calcunxt()
{
    int i=0;i=-1;
    nxt[0]=-1;
    while(i<lent)
    {
        if (j==-1||t[i]==t[j])
        {
            i++;j++;
            nxt[i]=j;//记录个数 
        }
        else j=nxt[j];
    }
}//建表 
void kmp()
{
    int i=0,j=0;
    while(i<lens)
    {
        if(j==-1||s[i]==t[j])
        {
            i++;j++;
            dp[i]=dp[i-1];
            if(j==lent)
            {
                tot++;
                j=nxt[j];
                dp[i]=(dp[i-1]+dp[i-lent])%mod;
//              j=0;
            }
        }
        else j=nxt[j];
    }
}                
int main()
{
    freopen("meaning.in","r",stdin);
    freopen("meaning.out","w",stdout);
    int p,ans[N];
    scanf("%d",&p);
    for(int i=1;i<=p;i++)
    {
        dp[0]=1;
        tot=0;
        memset(nxt,0,sizeof(nxt));
        scanf("%s",s);
        scanf("%s",t);
        lent=strlen(t);lens=strlen(s);
//      if(lent>lens)
//      {swap(s,t);swap(lent,lens);}
        calcunxt();
        kmp();
//      ans[i]=tot;
        printf("%d\n",dp[lens]);
    }
    return 0;
}

后话

所以kmp还可以结合动态规划dp,再加上DP的多样性, 这就有很多多样的变形了。

总结

kmp算法是一个非常灵活的算法,上面的几种变形只是冰山一角。要想攻克字符串大难题,仅有kmp是不行的,但是不会kmp是万万不行的。
希望各位读者可以写好这个算法,在以后的程序生活中更上一层楼!

2017.4.27

  • 3
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值