字符串匹配——KMP算法（flag）史上最容易懂的KMP解析

最新推荐文章于 2022-03-09 16:30:16 发布

千杯湖底沙.

最新推荐文章于 2022-03-09 16:30:16 发布

阅读量668

点赞数

分类专栏：字符串

本文链接：https://blog.csdn.net/qq_39670434/article/details/79531765

版权

字符串专栏收录该内容

4 篇文章 0 订阅

订阅专栏

flag史上最容易懂的KMP解析

如果要学习KMP的正确性请期待以后的博客

KMP概述

KMP算法是由 $Knuth/Morris/Pratt$ 三个人设计的线性字符串匹配算法。
这个算法用到了一个函数“前缀函数”，这里称作 $\pi(i)$ 。

下面我们看几个概念

文本T：是要查询的目标文章，长度记作 $T.len$

模式P：是你的字典词，长度记作 $P.len$
也就是我们要在文本里面找模式出现的次数和位置。

P[1..10]代表模式P第一个位置到第十个位置的字符串。

偏移s，如果我们正在比较 $T[s+1..s+P.len]$ 和 $P$ ，那么第一个字符在 $文本T$ 中的位置的前一个位置就是偏移s。可见，如果 $s=0$ ，那么我们正在比较 $T[1..P.len]$ 和 $P$ 。

前缀：对于一个字符串，从第一个字符开始的，所有的子串（本身除外）。
例如，对于“abcde”，它的前缀有”a”,”ab”,”abc”,”abcd”。
请注意，”abcde”不算是它的前缀。

后缀：参照前缀的概念，后缀是：对于一个字符串，以最后一个字符结尾的，所有的子串（本身除外）。
例如，对于”abcde”，它的后缀有”e”,”de”,”cde”,”bcde”。
请注意，”abcde”不算是它的后缀。

前缀函数:见下：

前缀函数

这里前缀函数我们记作 $\pi(i)$ 。这个函数是针对模式 $P$ 的。对于串 $P[1..i]$ （P的一个从P[1]开始的子串），设它前缀集合为 $A$ ，设它的后缀集合是 $B$ ，那么 $\pi(i)$ 就是 $A\cap B$ 中长度最长的字符串的长度。
例如：有一个字符串为 $"ababaca"$
当 $i=5$ 的时候， $P[1..5]=$ $"ababa"$
它的前缀集合：

A = {" a ", " a b ", " a b a ", " a b a b "}

$A=\{"a","ab","aba","abab"\}$
它的后缀集合：

B = {" a ", " b a ", " a b a ", " b a b a "}

$B=\{"a","ba","aba","baba"\}$
所以，

A \cap B = {" a b ", " a b a "'}

$A\cap B=\{"ab","aba"'\}$
我们可以发现在

A∩B A ∩ B $A\cap B$ 中，长度最长的字符串是

aba a b a $aba$ ，长度为

3 3 $3$ ，所以

π (5) = 3

$\pi(5)=3$ 。
我们可以预处理这个模式的前缀函数：
这里写图片描述

前缀函数的功能

我们回顾朴素字符串匹配法，我们要枚举所有的偏移 $s$ ，然后在每个偏移都花上 $O(P.len)$ 的时间去枚举匹配。总时间复杂度是 $O(P.len*T.len)$

前缀函数的用法

如果我们在考虑一个偏移 $s$ 的时候，前 $k$ 个字符匹配，但是第 $k+1$ 个字符不匹配，我们直接跳到偏移 $s'=s+\pi (k)$ 继续匹配。

这样跳偏移的作用

这样跳偏移，可以省略中间很多没有可能匹配到的偏移。很显然，我们跳到的偏移肯定是最有可能匹配的偏移。

这样跳的正确性

等待后续博客……

前缀函数的预处理

见下。我们先讲怎么匹配字符串。

字符串匹配

如果我们在考虑一个偏移 $s$ 的时候，前 $k$ 个字符匹配，但是第 $k+1$ 个字符不匹配，我们直接跳到偏移 $s'=s+\pi (k)$ 继续匹配。
下面给出图解：
如果我们在处理偏移 $s=4$ 的时候，匹配了5个字符，第6个字符不匹配：
这里写图片描述
我们取偏移 $s'=s+\pi(5)=4+3=7$

已经匹配的字符个数为 $\pi(5)=3$ 个字符。

code

const int maxn=1000020;
char T[maxn],P[maxn];//两个字符串
int T_len,P_len;//两个字符串的长度
int pai[maxn];//pi函数
int ans=0;//P在T中出现的个数
void KMP()
{
    int q=0;//q记录了有几个字符一起匹配
    for(int i=1;i<=T_len;i++)//枚举呗
    {
        while(q>0&&P[q+1]!=T[i])//如果不匹配，那就默认pai[q]个字符已经
            q=pai[q];
        if(P[q+1]==T[i])//如果匹配，那就已经匹配的字符个数+1
            q++;
        if(q==P_len)
            ans++,q=pai[q];
    //如果已经匹配的个数跟模式的长度相同，那么就已经匹配成功
    }
}

预处理 $\pi$ 前缀函数

其实预处理 $\pi$ 前缀函数的过程，就是模式串自我匹配的过程。

code

自己理解吧！

int pai[maxn];
void get_p()
{
    pai[0]=0;
    int k=0;
    for(int q=2;q<=P_len;q++)
    {
        while(k>0&&P[k+1]!=P[q])
            k=pai[k];
        if(P[k+1]==P[q])
            k++;
        pai[q]=k;
    }
}

时间复杂度分析

我们先看字符串匹配的过程。
在最坏的情况下，

while(q>0&&P[q+1]!=T[i])
//如果不匹配，那就默认pai[q]个字符已经匹配
            q=pai[q];

这些while语句中，我们可以证明，总共执行次数 $\leq T.len$ .所以，字符串匹配过程的时间复杂度为 $O(T.len)$
同上，预处理时间复杂度为 $O(P.len)$ .

千杯湖底沙.

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
字符串匹配——KMP算法（flag）史上最容易懂的KMP解析

flag史上最容易懂的KMP解析如果要学习KMP的正确性请期待以后的博客KMP概述KMP算法是由Knuth/Morris/PrattKnuth/Morris/PrattKnuth/Morris/Pratt三个人设计的线性字符串匹配算法。这个算法用到了一个函数“前缀函数”，这里称作π(i)π(i)\pi(i)。下面我们看几个概念文本T：是要查询的目标文章，长度记作...
复制链接

扫一扫