Z-algorithm字符串匹配 算法小结

昨天学习了字符串匹配,一种新算法Z-algorithm,现作如下总结。

算法大意

Z-algorithm是用于字符串匹配。定义z[i]表示以i开头的子串和原串的最长公共前缀。我们通过线性时间计算出整个串的z数组,从而进行一些字符串的相关操作,该算法等价于扩展KMP。

如何操作

我们通过已知的串s和z[1]…z[i-1]来求z[i]。
设想一个z数组,z[i]表示他的最长公共前缀即s[i]…s[i+z[i]].我们将其称之为i这个位置控制的范围,称为一个Z-box。我们定义l,r为右端点最靠右的Z-box的控制范围(即i和i+z[i])。下面进行分类讨论。
1.若i > r,则证明前面的所有Z-box和我们没有任何关联,我们无法利用,同时也证明i这个位置的Z-box一定是最靠右的,更新l=r=i,暴力匹配。
2.若i < r,则令k=i-l,因为i位于Z-box内,则我们知道s[l]…s[r]应该与s[0]..s[r-l]匹配,所以此处的k对应的是i∈[l,r]这个位置在前缀即[0,r-l]中的对应位置,故我们可以根据z[k]的数值来计算我们的z[i]。令z[i]=min(z[k],r-i+1).Z-box在这里会有两种可能。(1)包含。k这个位置控制的Z-box的右端点并没有超过[l,r]这个Z-box的右端点,直接令z[i]=z[k]。(2)超过。k这个位置控制的Z-box的右端点超过了超过了[l,r]对应的前缀。因为我们仅仅知道s[l]…s[r]与s[0]..s[r-l]匹配,后面的部分一概不知,所以我们令l=i,继续暴力匹配后面的长度,匹配完成后令z[i]=r-l即可。

复杂度

复杂度线性。不用太过严格证明,我们说说道理。不难看出r这个指针是单调递增的。证毕。


代码实现

void get_z()
{
    int l=0,r=0;
    for (int i=1;i<n;i++)
    {
        if (i>r)
        {
            l=i,r=i;
            while (r<n && s[r-l]==s[r]) r++;
            z[i]=r-l,r--;
        }
        else
        {
            int k=i-l;
            if (z[k]<r-i+1) z[i]=z[k];
            else
            {
                l=i;
                while (r<n && s[r-l]==s[r]) r++;
                z[i]=r-l,r--;
            }
        }
    } 
}

算法应用

几道例题看看这个算法怎么用。

Codeforces 126B Password

链接信手拈来

题目大意:你要在一个串中找到“密码”,密码定义为既是前缀,也是后缀,同时在串中间出现过的子串。

思路:用到了字符串匹配。我们先预处理处z数组。如何保证前缀也是后缀呢?z[i]==n-i.直观理解上就是以这一位为开始的串有n-i位与前缀相同。显而易见这说的就是后缀和前缀相等。那如何保证这一个串在中间也出现过呢?遍历的过程中记录一个z[i]的最大值maxx,若这个maxx>=n-i,则说明前面至少出现过不短于他的一个和前缀相同的串。输出。

代码如下

#include<cstdio>
#include<cstring>
#include<string>
#include<algorithm>
#include<iostream>
#include<cmath>
#include<cstdlib>
#include<ctime>
#include<map>
#include<queue>
#include<vector>
#include<stack>
#include<set>
#define pa pair<int,int>
#define INF 0x3f3f3f3f
#define inf 0x3f
#define fi first
#define se second
#define mp make_pair
#define ll long long
#define ull unsigned long long
#define pb push_back

using namespace std;

inline ll read()
{
    long long f=1,sum=0;
    char c=getchar();
    while (c<'0' || c>'9')
    {
        if (c=='-') f=-1;
        c=getchar();
    }
    while (c>='0' && c<='9')
    {
        sum=sum*10+c-'0';
        c=getchar();
    }
    return sum*f;
}
const int MAXN=1000010;
char s[MAXN];
int z[MAXN],n;
void get_z()
{
    int l=0,r=0;
    for (int i=1;i<n;i++)
    {
        if (i>r)
        {
            l=i,r=i;
            while (r<n && s[r-l]==s[r]) r++;
            z[i]=r-l,r--;
        }
        else
        {
            int k=i-l;
            if (z[k]<r-i+1) z[i]=z[k];
            else
            {
                l=i;
                while (r<n && s[r-l]==s[r]) r++;
                z[i]=r-l,r--;
            }
        }
    } 
} 
int main()
{
    scanf("%s",s);
    n=strlen(s);
    get_z();
    int maxx=0,pos=0;
    for (int i=1;i<n;i++)
    {
        if (z[i]==n-i && maxx>=n-i)
        {
            pos=i;
            break;
        }
        maxx=max(maxx,z[i]);
    }
    if (!pos) printf("Just a legend");
    else for (int i=0;i<n-pos;i++) putchar(s[i]);
    return 0;
}

Codeforces 535D Tavas and Malekas

继续拈链接

题目大意:给你一个模式串和原串的长度,并且告诉你模式串再原串中出现的位置,求原串有几种可能。

思路: 计算出模式串的z数组待用。
读进来每一个位置,先判断答案是否可行。有两种可能:这个串和前一个串有重合或没有重合。没有重合我们就默认他可以放在这里。如果有重合怎么办呢?前面的z数组就可以派上用场了。计算出重合的长度吗,如果这段长度的后缀和前缀是完全匹配的,那么就可以,否则就是不合法的。
因为是计算方案数,所以我们需要找出没有被锁死的位置来计算总数,采用差分的方法,区间打上标记表示被占用过,最后加起来看看哪里的标记是0,计算26的乘方即可。

代码

#include<cstdio>
#include<cstring>
#include<string>
#include<algorithm>
#include<iostream>
#include<cmath>
#include<cstdlib>
#include<ctime>
#include<map>
#include<queue>
#include<vector>
#include<stack>
#include<set>
#define pa pair<int,int>
#define INF 0x3f3f3f3f
#define inf 0x3f
#define fi first
#define se second
#define mp make_pair
#define ll long long
#define ull unsigned long long
#define pb push_back

using namespace std;

inline ll read()
{
    long long f=1,sum=0;
    char c=getchar();
    while (c<'0' || c>'9')
    {
        if (c=='-') f=-1;
        c=getchar();
    }
    while (c>='0' && c<='9')
    {
        sum=sum*10+c-'0';
        c=getchar();
    }
    return sum*f;
}
const int MAXN=1000010;
const int Mod=1e9+7;
char s[MAXN];
int z[MAXN],n,m,pos[MAXN],N;
void get_z()
{
    int l=0,r=0;
    for (int i=1;i<N;i++)
    {
        if (i>r)
        {
            l=i,r=i;
            while (r<N && s[r]==s[r-l]) r++;
            z[i]=r-l,r--;
        }
        else
        {
            int k=i-l;
            if (z[k]<r-i+1) z[i]=z[k];
            else
            {
                l=i;
                while (r<N && s[r]==s[r-l]) r++;
                z[i]=r-l,r--;
            }
        }
    }
}
bool check(int x,int y)
{
    if (x+n<=y) return true;
    return z[y-x]>=x+N-y;
}
int quickpow(int a,int b)
{
    ll ans=1,x=a;
    while (b)
    {
        if (b&1) ans*=x;
        b/=2;
        x*=x;
        ans%=Mod,x%=Mod; 
    }
    return (int)ans;
}
int a[MAXN];
int main()
{
    scanf("%d%d",&n,&m);
    if (!m)
    {
        printf("%d",quickpow(26,n));
        return 0;
    }   
    scanf("%s",s);
    N=(int)strlen(s);
    get_z();
    for (int i=1;i<=m;i++)
    {
        scanf("%d",&pos[i]);
        pos[i]--;
    }
    int tot=0;
    for (int i=1;i<m;i++)
    {
        if (check(pos[i],pos[i+1]))
            a[pos[i]]++,a[pos[i]+N]--;
        else 
        {
            printf("0");
            return 0;
        }
    }
    a[pos[m]]++,a[pos[m]+N]--;
    for (int i=0;i<n;i++)
        a[i]+=a[i-1]; 
    for (int i=0;i<n;i++)
        if (!a[i])
            tot++;
    printf("%d",quickpow(26,tot));
    return 0;
}

Codeforces 631D Messenger

链接又一次被拈过来了

题目大意:定义一种奇怪的二元组< char , int >,表示前一个字符连续出现了几次,用这种二元组表示出文本串和模式串。问在文本串中能够匹配多少次模式串。

思路:思路也很清奇。最初一看似乎无从下手,但是我们发现,其实这个串想要匹配的条件其实很苛刻。仔细一想,去掉头尾两个二元组的话,中间那些部分必须完全相等才能匹配。我们采用如下方式构造新串:将文本串(大串)接在去掉头尾两个二元组的模式串上,获取它的z数组。
然后我们就可以先找到能够匹配中间部分的位置,此时我们再单独比较头尾是否可行即可。
这种方法需要特判1,因为去掉头尾是无法看出长度为1的串的。。。

代码:

#include<cstdio>
#include<cstring>
#include<string>
#include<algorithm>
#include<iostream>
#include<cmath>
#include<cstdlib>
#include<ctime>
#include<map>
#include<queue>
#include<vector>
#include<stack>
#include<set>
#define pa pair<int,int>
#define INF 0x3f3f3f3f
#define inf 0x3f
#define fi first
#define se second
#define mp make_pair
#define ll long long
#define ull unsigned long long
#define pb push_back

using namespace std;

inline ll read()
{
    long long f=1,sum=0;
    char c=getchar();
    while (c<'0' || c>'9')
    {
        if (c=='-') f=-1;
        c=getchar();
    }
    while (c>='0' && c<='9')
    {
        sum=sum*10+c-'0';
        c=getchar();
    }
    return sum*f;
}
const int MAXN=200010;
int z[2*MAXN];
ll t1[MAXN],t2[MAXN];
char s1[MAXN],s2[MAXN],s[2*MAXN];
ll t[2*MAXN];
int main()
{
    int n,m;
    char tmp[5],last='$';
    scanf("%d%d",&n,&m);
    for (int i=1;i<=n;i++)
    {
        int x;
        scanf("%d",&t1[i]);
        scanf("%s",tmp);
        if (tmp[1]==last) i--,n--,t1[i]+=t1[i+1];
        s1[i]=tmp[1];
        last=tmp[1];
    }
    last='$';
    for (int i=1;i<=m;i++)
    {
        int x;
        scanf("%d",&t2[i]);
        scanf("%s",tmp);
        if (tmp[1]==last) i--,m--,t2[i]+=t2[i+1];
        s2[i]=tmp[1];
        last=tmp[1]; 
    }
    if (m==1)
    {
        ll ans=0;
        for (int i=1;i<=n;i++)
        {
            if (s1[i]!=s2[1]) continue;
            if (t1[i]<t2[1]) continue;
            ans+=(t1[i]-t2[1]+1);
        }
        cout<<ans;
        return 0;
    }
    for (int i=2;i<m;i++)
        s[i-2]=s2[i],t[i-2]=t2[i];
    for (int i=1;i<=n;i++)
        s[i+m-2]=s1[i],t[i+m-2]=t1[i];
    int N=n+m-1;
    int l=0,r=0;
    for (int i=1;i<N;i++)
    {
        if (i>r)
        {
            l=i,r=i;
            while (r<N && t[r]==t[r-l] && s[r]==s[r-l]) r++;
            z[i]=r-l,r--;
        }   
        else
        {
            int k=i-l;
            if (z[k]<r-i+1) z[i]=z[k];
            else
            {
                l=i;
                while (r<N && t[r]==t[r-l] && s[r]==s[r-l]) r++;
                z[i]=r-l,r--;
            }
        }
    }
    int ans=0;
    for (int i=m-1;i<=m+n-2;i++)
    {
        if (z[i]!=m-2) continue;
        if (s[i-1]!=s2[1]) continue;
        if (s[i-2+m]!=s2[m]) continue;
        if (t[i-1]<t2[1]) continue;
        if (t[i-2+m]<t2[m]) continue;
        ans++;
    }
    cout<<ans;
    return 0;
}

Codeforces 149E Martian Strings

链接啊链接

题目大意:给定一个文本串和多个模式串,问有多少个串能被拆分成恰好两段被匹配到。

思路:肯定是一个模式串一个模式串的分开做。对于每一个模式串,我们将文本串接在模式串后面,处理出新串的z数组。
再定义一个新数组pos[i]表示模式串长度为i的前缀最小被匹配到的位置。然后把模式串和文本串分别反过来,再次匹配,匹配到长度为len-i时判断是否合法即可。

代码:

#include<cstdio>
#include<cstring>
#include<string>
#include<algorithm>
#include<iostream>
#include<cmath>
#include<cstdlib>
#include<ctime>
#include<map>
#include<queue>
#include<vector>
#include<stack>
#include<set>
#define pa pair<int,int>
#define INF 0x3f3f3f3f
#define inf 0x3f
#define fi first
#define se second
#define mp make_pair
#define ll long long
#define ull unsigned long long
#define pb push_back

using namespace std;

inline ll read()
{
    long long f=1,sum=0;
    char c=getchar();
    while (c<'0' || c>'9')
    {
        if (c=='-') f=-1;
        c=getchar();
    }
    while (c>='0' && c<='9')
    {
        sum=sum*10+c-'0';
        c=getchar();
    }
    return sum*f;
}
const int MAXN=200010;
const int MAXM=1010;
char s[MAXN],c[MAXN],S[MAXN];
int z[MAXN],N,pos[MAXM],n,len,tot;
void get_z()
{
    int l=0,r=0;
    for (int i=1;i<=n+len;i++)
    {
        if (i>r)
        {
            l=i,r=i;
            while (r<n+len && s[r]==s[r-l]) r++;
            z[i]=r-l,r--;
        }
        else 
        {
            int k=i-l;
            if (z[k]<r-i+1) z[i]=z[k];
            else
            {
                l=i;
                while (r<n+len && s[r]==s[r-l]) r++;
                z[i]=r-l,r--;
            }
        }
        if (i>len && z[i]) pos[z[i]]=min(pos[z[i]],i-len+z[i]-1); 
    }
}
void get_Z()
{
    int l=0,r=0;
    for (int i=1;i<=n+len;i++)
    {
        if (i>r)
        {
            l=i,r=i;
            while (r<n+len && S[r]==S[r-l]) r++;
            z[i]=r-l,r--;
        }
        else 
        {
            int k=i-l;
            if (z[k]<r-i+1) z[i]=z[k];
            else
            {
                l=i;
                while (r<n+len && S[r]==S[r-l]) r++;
                z[i]=r-l,r--;
            }
        }
        if (i>len) if (pos[len-z[i]]<=n+len-i-z[i]+1) {tot++;break;}
    }
}
int main()
{
    scanf("%s",c);
    n=(int)strlen(c);
    int T;
    tot=0;
    scanf("%d",&T);
    while (T--)
    {
        memset(pos,inf,sizeof(pos));
        scanf("%s",s);
        len=strlen(s);
        if (len<2) continue;
        for (int i=0;i<n;i++)
            s[i+len+1]=c[i];
        for (int i=0;i<len;i++)
            S[i]=s[len-i-1];
        for (int i=0;i<n;i++)
            S[i+len+1]=c[n-i-1];
        S[len]='$',s[len]='$';
        get_z();
        for (int i=len-1;i>=1;i--)
            pos[i]=min(pos[i+1]-1,pos[i]);
        get_Z();
    }
    cout<<tot;
    return 0;
}

该算法的用法

大概就是字符串匹配吧。模式串+’$’+文本串是一个很好的选择。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
©️2022 CSDN 皮肤主题:大白 设计师:CSDN官方博客 返回首页
评论 3

打赏作者

szh_0808

你的鼓励将是我创作的最大动力

¥2 ¥4 ¥6 ¥10 ¥20
输入1-500的整数
余额支付 (余额:-- )
扫码支付
扫码支付:¥2
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。

余额充值