什么是KMP算法及其应用（附算法模板）

最新推荐文章于 2024-08-02 18:20:17 发布

Sumpon

最新推荐文章于 2024-08-02 18:20:17 发布

阅读量1.8k

点赞数 3

分类专栏：算法文章标签：算法

本文链接：https://blog.csdn.net/m0_58667776/article/details/121214990

版权

算法专栏收录该内容

7 篇文章 1 订阅

订阅专栏

1.什么是KMP算法？

KMP其实是一种高效的字符串匹配算法，用来在主字符串中查找模式字符串的位置。对暴力的那种一一比对的方法进行了优化，使时间复杂度大大降低至O(n)

为了方便理解下面的内容，我将定义一些概念方便大家理解：

1、s[ ]是模式串
2、p[ ]是模板串
3、“非平凡前缀”：指除了最后一个字符以外，一个字符串的全部头部组合。
4、“非平凡后缀”：指除了第一个字符以外，一个字符串的全部尾部组合。（
5、“部分匹配值”：前缀和后缀的最长共有元素的长度。
6、next[ ]是“部分匹配值表”，即next数组，它存储的是每一个下标对应的“部分匹配值”，是KMP算法的核心。

2.核心思想：

在每次匹配失配时，并不是把p串往后移动一位，而是把p串往后移动至下一次可以和前面部分匹配的位置，这样就可以跳过大多数的失配步骤。而每次p串移动的步数就是通过查找next[ ]数组确定的。

3.next数组：

next数组的含义：对next[ j ] ，是p[ 1, j ]串中前缀和后缀相同的最大长度（部分匹配值），即 p[ 1, next[ j ] ] = p[ j - next[ j ] + 1, j ]。

next例子.PNG

手动模拟求next数组：

对 p = “abcab”

next[ 1 ] ：前缀 = null(空)———后缀 = null(空)———next[ 1 ] = 0;

next[ 2 ] ：前缀 = { a }———后缀 = { b }———next[ 2 ] = 0;

next[ 3 ] ：前缀 = { a , ab }———后缀 = { c , bc }———next[ 3 ] = 0;

next[ 4 ] ：前缀 = { a , ab , abc }———后缀 = { a , ca , bca }———next[ 4 ] = 1;

next[ 5 ] ：前缀 = { a , ab , abc , abca }———后缀 = { b , ab , cab , bcab }———next[ 5 ] = 2;

4.匹配思路和实现代码

KMP主要分两步：求next数组、匹配字符串。

s串和 p串都是从1开始的。i 从1开始，j 从0开始，每次s[ i ] 和p[ j + 1 ]比较

匹配.PNG

如果s[ a , b ] = p[ 1, j ] && s[ i ] != p[ j + 1 ] 此时要移动p串（移动到下次能匹配的位置）

其中1串为[ 1, next[ j ] ]，3串为[ j - next[ j ] + 1 ， j ]。由匹配可知 1串等于3串，3串等于2串。所以直接移动p串使1到3的位置即可。这个操作可由j = next[ j ]直接完成。当 j == m时匹配成功。

for(int i = 1, j = 0; i <= n; i++)
{
    while(j && s[i] != p[j+1]) j = ne[j];
    //如果j有对应p串的元素， 且s[i] != p[j+1], 则失配， 移动p串
    //用while是由于移动后可能仍然失配，所以要继续移动直到匹配或整个p串移到后面（j = 0)

    if(s[i] == p[j+1]) j++;
    //当前元素匹配，j移向p串下一位
    if(j == m)
    {
        //匹配成功，进行相关操作
        j = next[j];  //继续匹配下一个子串
    }
}

求next数组的思路和实现代码

next数组的求法是通过模板串与自己进行匹配操作得出来的。

next数组.PNG


for(int i = 2, j = 0; i <= m; i++)
{
    while(j && p[i] != p[j+1]) j = next[j];

    if(p[i] == p[j+1]) j++;

    next[i] = j;
}

每次移动 i 前，将 i 前面已经匹配的长度记录到next数组中。

参考：四谷夕雨

Sumpon

关注

3
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
0
评论
什么是KMP算法及其应用（附算法模板）

1.什么是KMP算法？KMP其实是一种高效的字符串匹配算法，用来在主字符串中查找模式字符串的位置。对暴力的那种一一比对的方法进行了优化，使时间复杂度大大降低至O(n)为了方便理解下面的内容，我将定义一些概念方便大家理解：1、s[ ]是模式串2、p[ ]是模板串3、“非平凡前缀”：指除了最后一个字符以外，一个字符串的全部头部组合。4、“非平凡后缀”：指除了第一个字符以外，一个字符串的全部尾部组合。（5、“部分匹配值”：前缀和后缀的最长共有元素的长度。6、next...
复制链接

扫一扫