浅谈KMP算法的延伸

最新推荐文章于 2023-04-16 18:17:37 发布

Hawo11

最新推荐文章于 2023-04-16 18:17:37 发布

阅读量524

点赞数 3

分类专栏： ————专题———— ————字符串———— 浅谈系列文章标签： kmp 算法字符串

本文链接：https://blog.csdn.net/Hawo11/article/details/70858790

版权

————专题———— 同时被 3 个专栏收录

48 篇文章 0 订阅

订阅专栏

浅谈系列

26 篇文章 0 订阅

订阅专栏

————字符串————

9 篇文章 0 订阅

订阅专栏

基础KMP

概况

kmp算法是字符串问题的基本算法，其重要性比肩广搜深搜。许多算法都是kmp的延伸运用。
kmp算法又称“看毛片”算法，是一个效率非常高的字符串匹配算法。不过由于其难以理解，所以在很长的一段时间内一直没有搞懂。虽然网上有很多资料，但是鲜见好的博客能简单明了地将其讲清楚。

适用范围

kmp算法完成的任务是：给定两个字符串O和f，长度分别为n和m，判断f是否在O中出现，如果出现则返回出现的位置。常规方法是遍历a的每一个位置，然后从该位置开始和b进行匹配，但是这种方法的复杂度是O(nm)。kmp算法通过一个O(m)的预处理，使匹配的复杂度降为O(n+m)。
说到这里，kmp的重要性已经凸显出来了。

算法的主要思想

我们首先用一个图来描述kmp算法的思想。在字符串O中寻找f，当匹配到位置i时两个字符串不相等，这时我们需要将字符串f向前移动。常规方法是每次向前移动一位，但是它没有考虑前i-1位已经比较过这个事实，所以效率不高。事实上，如果我们提前计算某些信息，就有可能一次前移多位。假设我们根据已经获得的信息知道可以前移k位，我们分析移位前后的f有什么特点。我们可以得到如下的结论：
A段字符串是f的一个前缀。
B段字符串是f的一个后缀。
A段字符串和B段字符串相等。
所以前移k位之后，可以继续比较位置i的前提是f的前i-1个位置满足：长度为i-k-1的前缀A和后缀B相同。只有这样，我们才可以前移k位后从新的位置继续比较。

核心

所以kmp算法的核心即是计算字符串f每一个位置之前的字符串的前缀和后缀公共部分的最大长度（不包括字符串本身，否则最大长度始终是字符串本身）。获得f每一个位置的最大公共长度之后，就可以利用该最大公共长度快速和字符串O比较。当每次比较到两个字符串的字符不同时，我们就可以根据最大公共长度将字符串f向前移动(已匹配长度-最大公共长度)位，接着继续比较下一个位置。事实上，字符串f的前移只是概念上的前移，只要我们在比较的时候从最大公共长度之后比较f和O即可达到字符串f前移的目的。

代码

#include<cstdio>
#include<iostream>
#include<cstring>
#include<string>
#include<map>
#include<algorithm>
using namespace std;
const int N=100005;
int nxt[N];
int lent,lens;
int tot=0;
char s[N],t[N];
void calcunxt()
{
    int i=0,j=-1;
    nxt[0]=-1;
    while(i<lent)
    {
        if(j==-1||t[i]==t[j])
        {
            i++;j++;
            nxt[i]=j;//记录个数 
        }
        else j=nxt[j];
    }
}//建表 
void kmp()
{
    int i=0,j=0;
    while(i<lens)
    {
        if(j==-1||s[i]==t[j])
        {
            i++;j++;
            if(j==lent)
            {
                tot++;
//              j=nxt[j];
                j=0;
            }
        }
        else j=nxt[j];
    }
}
int main()
{
    int p,ans[N];
    scanf("%d",&p);
    for(int i=1;i<=p;i++)
    {
        tot=0;
        memset(nxt,0,sizeof(nxt));
        scanf("%s",s);
        if (s[0]=='#') break;
        scanf("%s",t);
        lent=strlen(t);lens=strlen(s);
        if(lent>lens)
        {swap(s,t);swap(lent,lens);}
        calcunxt();
        kmp();
//      ans[i]=tot;
        printf("%d\n",tot);
    }
//    for (int i=1;i<=p;i++)
//    printf("%d",ans[i]);
    return 0;
}

这是最最基础的kmp。

延伸一

题目

给出一个敏感词w，和一篇文章p，你的工作很简单，每次找出p 中第一次出现的w，然后将这个w 删掉，然后重复这个过程，直到在p 中找不到w 为止。请你输出最后删减后的文章p。

方法

按照题目要求，很容易想出一个算法，每次做kmp，找到第一次匹配的位置，然后删掉这个匹配，再做kmp。。直到没有匹配为止。删除的时候采取暴力删除的方法，总复杂度是O(len^2)的，但是不能满分！

这里我们可以优化删除。把暴力删除改为一段一段的删除，因为所需的字符串长度是一定的。用visit数组记录删除状态，用pos记录位置，每次从i-1（前一个位置）开始，通过nxt数组所记录的位置一个一个找。

代码

#include<cstdio>
#include<iostream>
#include<cstring>
#include<algorithm>
#include<cmath>
#include<vector>
#include<ctime>
using namespace std;
const int N=300005;
int nxt[N],lent,lens,visit[N];
char ss[N],tt[N];
void calcunxt()
{
    int i=0,j=-1;
    nxt[0]=-1;
    while(i<lent)
    {
        if(j==-1||tt[i]==tt[j])
        {
            i++;j++;
            nxt[i]=j;//记录个数 
        }
        else j=nxt[j];
    }
}//表格记录所有起始位置  
void kmp()
{
    int i=0,j=0;
    while(i<lens)
    {
        for (;;)
        {
            if (visit[i]) i++;
            else break;
        }
        if(j==-1||ss[i]==tt[j])
        {
            i++;j++;
            if(j==lent)
            {
                int pos=i-1;
                j=0;
                for (int x=i-1;x>=i-lent;x--)
                {
                    if (visit[pos])
                    {
                        pos--;
                        x++;
                        continue;
                    }
                    visit[pos--]=1;
                }
                pos=i-lent-1;
                for (int x=1;x<=lent;x++)
                {
                    if (visit[pos]) 
                    {
                        pos--;
                        x--;
                        continue;
                    }
                    pos--;
                    if (pos<0) break;
                }
                i=pos;
                if (i<0) i=0;
            }
        }
        else j=nxt[j];
    }
}
int main()
{

    freopen("sensitive.in","r",stdin);
    freopen("sensitive.out","w",stdout);
    memset(nxt,0,sizeof(nxt));
    scanf("%s",ss);
    scanf("%s",tt);
    lent=strlen(tt);lens=strlen(ss);
    if(lent>lens) 
    {
        char zz[N];
        strcpy(zz,ss);
        strcpy(ss,tt);
        strcpy(tt,zz);
        swap(lens,lent);
    }
//  {swap(ss,tt);swap(lent,lens);}
    memset(visit,0,sizeof(visit));
    calcunxt();
    kmp();
    for (int i=0;i<=lens;i++)
    if (visit[i]!=1) printf("%c",ss[i]);
    return 0;
}

后话

当然，这道题还有许多方法。

方法一

kmp+栈或双向链表。
可以用一个栈来优化这个过程：
从头开始扫描文章，扫描到的每一个字符压入栈，并记录每一个字符匹配到的位置。当发现一个匹配的时候，将匹配的字符出栈。然后从栈顶元素匹配到的位置继续匹配。最后栈中保存的就是结果。

方法二

也可以用双向链表来优化这个过程：
和栈优化的方法类似，只是使用双向链表优化删除匹配串，删除操作变为简单改变匹配位置指针的值。
用栈或者双向链表优化后的复杂度是O(len)，可以获得100 分。

延伸二

题目

有的词语常常别有深意，比如hehe可以单纯的表示hehe，也可以表示“excuse me?!”，现给出一段话s，和一个单词t，已知单词t有别有深意，也就是说有两个意思，求s可能有多少个意思？答案对1000000007取模。

方法

KMP+DP
设dp[i]为s长度为i的前缀，有多少种意思，初始情况dp[0]=1。
一般情况下dp[i] = dp[i-1]
如果在s中找到一个t，则t会为s带来新的意思，即是说dp[i] = dp[i-1] + dp[I – lent]。最后输出dp[lens]即可。
如果暴力找出所有t，应该可以得到50分。
我们使用KMP算法快速找到所有s中的t，就可以通过本题。

代码

#include<cstdio>
#include<iostream>
#include<cstring>
#include<string>
#include<map>
#include<algorithm>
using namespace std;
const int N=100005;
const int mod=1000000007;
int nxt[N],dp[N];
int lent,lens;
int tot=0;
char s[N],t[N];
void calcunxt()
{
    int i=0;i=-1;
    nxt[0]=-1;
    while(i<lent)
    {
        if (j==-1||t[i]==t[j])
        {
            i++;j++;
            nxt[i]=j;//记录个数 
        }
        else j=nxt[j];
    }
}//建表 
void kmp()
{
    int i=0,j=0;
    while(i<lens)
    {
        if(j==-1||s[i]==t[j])
        {
            i++;j++;
            dp[i]=dp[i-1];
            if(j==lent)
            {
                tot++;
                j=nxt[j];
                dp[i]=(dp[i-1]+dp[i-lent])%mod;
//              j=0;
            }
        }
        else j=nxt[j];
    }
}                
int main()
{
    freopen("meaning.in","r",stdin);
    freopen("meaning.out","w",stdout);
    int p,ans[N];
    scanf("%d",&p);
    for(int i=1;i<=p;i++)
    {
        dp[0]=1;
        tot=0;
        memset(nxt,0,sizeof(nxt));
        scanf("%s",s);
        scanf("%s",t);
        lent=strlen(t);lens=strlen(s);
//      if(lent>lens)
//      {swap(s,t);swap(lent,lens);}
        calcunxt();
        kmp();
//      ans[i]=tot;
        printf("%d\n",dp[lens]);
    }
    return 0;
}