KMP算法学习笔记

最新推荐文章于 2022-05-15 21:15:08 发布

Soft'Wind

最新推荐文章于 2022-05-15 21:15:08 发布

阅读量338

点赞数

分类专栏：笔记文章标签：算法

本文链接：https://blog.csdn.net/qq_18431031/article/details/116804464

版权

笔记专栏收录该内容

13 篇文章 9 订阅

订阅专栏

先总结几个概念：
前缀：指除最后一个字符以外，字符串的所有头部字子串。
后缀：指除第一个字符外，字符串的所有尾部字串。
部分匹配值：字符串的前缀和后缀的最长相等前后缀长度。

以’ababa’为例进行说明：

‘a’的前缀和后缀都为空集，最长相等前后缀长度为0。
‘ab’的前缀为{a}，后缀为{b}，最长相等前后缀长度为0。
‘aba’的前缀为{a,ab}，后缀为{a,ba}，最长相等前后缀长度为1。
‘abab’的前缀为{a,ab,aba}，后缀为{b,ab,bab}，最长相等前后缀长度为2。
‘ababa’的前缀为{a,ab,aba,abab}，后缀为{a,ba,aba,baba}，最长相等前后缀长度为3。

故字符串’ababa’的部分匹配值为000123。
利用上面方法得到子串’abcac’的部分匹配值（Partial Match,PM）为00010，将其用表格表示如下：

编号	1	2	3	4	5
S	a	b	c	a	c
PM	0	0	0	1	0

计算KMP算法中next数组的第一步是将上面表格中PM行的值右移一位，最低位补上-1，如下所示：

编号	1	2	3	4	5
S	a	b	c	a	c
PM	0	0	0	1	0
next	-1	0	0	0	1

接着将next数组整体+1:

编号	1	2	3	4	5
S	a	b	c	a	c
PM	0	0	0	1	0
next	0	1	1	1	2

以上是手动计算出next数组的方法，接下来是使用编程求出next数组，编程思路大概如下：
①设置两个指针i = 1,j = 0分别指向待匹配串的第一个和第二个字符；
② 如果j == 0或者字符串的第i个和第j个字符相等，则先将i和j指针向后移动一位，++i,++j，再将j赋给next[i]，否则令j = next[i]。

具体代码如下：

void get_next(SString T, int *next)
{
    int i = 1, j = 0;
    next[1] = 0;
    while (i < T.length) {
        if (j == 0 || T.ch[i] == T.ch[j]) {
            ++i; ++j;
            next[i] = j;
        } else j = next[j];
    }
}

求出next数组后，KMP算法在形式上与求next数组算法很相似，不同之处在于匹配失败时指针i不变，指针j退回到next[j]的位置并重新进行比较。
KMP算法的代码如下：

int Index_KMP(SString S, SString T, int *next)
{
    int i = 1, j = 1;
    while (i <= S.length && j <= T.length) {
        if (j == 0 || S.ch[i] == T.ch[j]) {
            ++i; ++j;
        } else j = next[j];
    }
    if (j > T.length) return i - T.length;
    else return 0;
}

KMP算法的完整代码如下：

#include <stdio.h>
#include <string.h>

#define MAXLEN 255

typedef struct {
    char ch[MAXLEN];
    int length;
} SString;

int next[MAXLEN], nextval[MAXLEN];

void init(SString &s)
{
    int n;
    scanf("%s", s.ch);
    for (int i = 0; s.ch[i] != '\0'; i++) n = i;
    s.length = n;
}

void get_next(SString T, int *next)
{
    int i = 1, j = 0;
    next[1] = 0;
    while (i < T.length) {
        if (j == 0 || T.ch[i] == T.ch[j]) {
            ++i; ++j;
            next[i] = j;
        } else j = next[j];
    }
}

int Index_KMP(SString S, SString T, int *next)
{
    int i = 1, j = 1;
    while (i <= S.length && j <= T.length) {
        if (j == 0 || S.ch[i] == T.ch[j]) {
            ++i; ++j;
        } else j = next[j];
    }
    if (j > T.length) return i - T.length;
    else return 0;
}

int main()
{
    SString T, S;
    init(T); init(S);
    get_next(T, next);
    int index = Index_KMP(S, T, next);
    printf("%d\n", index);
    return 0;
}

实际上next数组还能进一步优化，例如当’aaaab’和’aaabaaaaab’进行匹配时：

主串	a	a	a	b	a
模式	a	a	a	a	b
j	1	2	3	4	5
next[j]	0	1	2	3	4
nextval[j]	0	0	0	0	4

当i=4，j=4时，主串跟模式串（ $S_{4}$ 跟 $P_{4}$ ）匹配失败，如果使用next数组还需进行 $S_{4}$ 与 $P_{3}$ 、 $S_{4}$ 与 $P_{2}$ 、 $S_{4}$ 与 $P_{1}$ 这3次比较，事实上，这3次比较毫无意义。为了优化这种情况，更新next数组的求法，新数组命名为nextval。

根据next数组计算nextval数组的思路如下：
从前往后扫描模式串的字符，将模式串的第j位与模式串的第next[j]位进行比较，若模式串的这两位不相等，则nextval数组的第j位赋值为模式串的第next[j]位的next值，若模式串的这两位不相等，则再将模式串的第next[j]位与模式串第next[next[j]]比较，直到两个字符不相等为止。

代码如下：

void get_nextval(SString T, int *nextval)
{
    int i = 1, j = 0;
    nextval[1] = 0;
    while (i < T.length) {
        if (j == 0 || T.ch[i] == T.ch[j]) {
            ++i; ++j;
            if (T.ch[i] != T.ch[j]) nextval[i] = j;
            else nextval[i] = nextval[j];
        } else j = nextval[j];
    }
}

王道数组结构考研复习指导

Soft'Wind

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
KMP算法学习笔记

先总结几个概念：前缀：指除最后一个字符以外，字符串的所有头部字子串。后缀：指除第一个字符外，字符串的所有尾部字串。部分匹配值：字符串的前缀和后缀的最长相等前后缀长度。以’ababa’为例进行说明：‘a’的前缀和后缀都为空集，最长相等前后缀长度为0。‘ab’的前缀为{a}，后缀为{b}，最长相等前后缀长度为0。‘aba’的前缀为{a,ab}，后缀为{a,ba}，最长相等前后缀长度为1。‘abab’的前缀为{a,ab,aba}，后缀为{a,ab,bab}，最长相等前后缀长度为2。‘ababa
复制链接

扫一扫