KMP算法

Huah_2018

已于 2023-09-09 21:53:34 修改

阅读量213

点赞数 2

文章标签：算法

于 2020-10-28 11:48:32 首次发布

本文链接：https://blog.csdn.net/huah_2018/article/details/109328823

版权

1.nex数组

对于长度为 $n$ 的字符串 $S$ ，定义 $nex_i=max\{x|x\in \{1,2,...,i-1\}\}$ 且 $x$ 满足 $S_1S_2....S_x=S_{i-x+1}S_{i-x+2}...S_i$ 。特别地，若不存在这样的 $x$ ，则 $nex_i=0$ 。

2.归纳法求解nex数组

当 $i = 1$ ，显然有 $nex_1=0$ 。
当 $i > 1$ ，设当前已经求出了 $nex_1,nex_2,...,nex_{i-1}$ ，现求解 $nex_i$ ：
在这里插入图片描述

如图，不妨设 $nex_{i-1}=j,nex_j=k,nex_k=h,nex_h=...$
令 $A, B, C, D, E, F$ 为对应填充区域表示的字符串，则由 $n e x$ 数组的定义，有 $A = B, C = D, E = F$ 。

若 $S_{j+1}=S_{(i-1)+1}=S_i$ ，则 $nex_i=j+1=nex_{i-1}+1$ 。
证：由 $A=B,S_{j+1}=S_{i}\Rightarrow A+S_{j+1}=B+S_i$ ，再证明 $j + 1$ 是最大的，设存在 $j + 1 < x < i$ 使得 $nex_i=x$ ，则有 $S_1S_2...S_{x-1}S_x=S_{i-x+1}S_{i-x+2}...S_{i-1}S_i\\\Rightarrow S_1S_2...S_{x-1}=S_{i-x+1}S_{i-x+2}...S_{i-1}$ 从而有 $nex_{i-1}=x-1>j$ 与 $nex_{i}=j$ 矛盾，故 $j + 1$ 是最大的。

若 $S_{j+1}\neq S_i$ ，则对于位置 $k$ ，若 $s_{k+1}=S_i$ ，则 $nex_i=k+1$ .
证： $A=C+x+D=B,S_{k+1}=S_i\Rightarrow C+S_{k+1}=D+S_i$ ，同理可证 $k + 1$ 是最大的。
若 $S_{k+1}\neq S_i$ ，继续递归检查 $nex_k,nex_{nex_k},...$ 即可。
特别的，递归到 $nex_0$ 后则 $nex_i=0$ （特别定义 $nex_0=-1$ ）。

void kmp_next(int n,char *s)
{
    //n is the length of string s
    //s indexes labeled from 1 to n
    nex[0]=-1;
    for(int i=1;i<=n;i++)
    {
        int k=nex[i-1];
        while(k!=-1&&s[k+1]!=s[i]) k=nex[k];
        nex[i]=k+1;
    }
}

3.利用nex数组进行字符串匹配

在一个字符串 $T$ 中查找字符串 $S$ 的出现次数。设有 $T_{j-i+1}T_{j-i+2}....T_j=S_1S_2...S_i$ 但 $T_{j+1}\neq S_{i+1}$ ，只需让 $i$ 回溯到 $nex_i$ 再继续拿 $S_{nex_i+1}$ 与 $T_{j+1}$ 进行匹配即可，因为由 $n e x$ 数组的性质有 $S_1S_2...S_{nex_i}=S_{i-nex_i+1}S_{i-nex_i+2}...S_i=T_{j-nex_i+1}T_{j-nex_i+2}...T_j$ 。

int kmp_match(int n,int m,char *s,char *t)
{
    //n is the length of string s
    //s indexes labeled from 1 to n
    //m is the length of string s
    //t indexes labeled from 1 to m
    int match_count=0;
    for(int i=0,j=0;i<m;i++)
    {
        while(j!=-1&&s[j+1]!=t[i+1])
            j=nex[j];
        j++;
        if(j==n)
        {
            match_count++;
            j=nex[j];
        }
    }
    return match_count;
}

Huah_2018

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
KMP算法

1.nex数组对于长度为nnn的字符串SSS，定义nexi=max{x∣x∈{1,2,...,i−1}}nex_i=max\{x|x\in \{1,2,...,i-1\}\}nexi=max{x∣x∈{1,2,...,i−1}}且xxx满足S1S2....Sx=Si−x+1Si−x+2...SiS_1S_2....S_x=S_{i-x+1}S_{i-x+2}...S_iS1S2....Sx=Si−x+1Si−x+2...Si。特别地，若不存在这样的xxx，则nexi=0nex_i=0nexi
复制链接

扫一扫