三十天挑战数据结构（8）KMP算法

最新推荐文章于 2024-09-14 22:25:23 发布

六六_

最新推荐文章于 2024-09-14 22:25:23 发布

阅读量163

点赞数 1

分类专栏：三十天挑战数据结构（C语言）文章标签：算法数据结构 c语言字符串

本文链接：https://blog.csdn.net/qq_45904254/article/details/106458275

版权

三十天挑战数据结构（C语言）专栏收录该内容

15 篇文章 2 订阅

订阅专栏

上一篇博客里提到，朴素的匹配算法效率太低，因此三位前辈：D.E.Knuth、J.H.Morris和V.R.Pratt发表了一种相对高效的匹配算法，简称KMP算法。
要理解这种算法其实并不难，虽然起初看了无数视频看了许多书籍都没有办法很透彻的理解，但经过一点一点分析，总会有一天将它思考透彻的。
总的来讲，这个算法做到的其实就是将不必要的匹配跳过。
例如主串为：abcababca
子串为：abcabx
这是一个很简单的例子，我们会从第一个开始比较，一直到前五个“abcab”都能匹配成功，但是最后的“x”匹配失败。用朴素算法来匹配时将让子串回到主串的第二个位置继续匹配，发现不匹配，再移到第三个…
而其实我们可以看出，前五个都是能匹配上的，并且子串中第二、三个字符和第一个字符不同，所以可以直接在主串匹配时跳过这两次匹配。大概能够感受到了，具体要跳到哪里进行匹配，其实是取决于子串的，和主串丝毫没有关系，这也就是理解KMP算法的一个关键点：next数组只和子串有关。

关于如何得到next数组的值，一个公式帮上了大忙：
在这里插入图片描述
这里next数组是从下标为1开始的，并且储存主串和子串的数组第0位存放的是串的长度。
下面放上代码：

#include<stdio.h>
#define MAXSIZE 40

typedef char String[MAXSIZE+1];

int next[MAXSIZE];

//获取next数组的值
void Get_next(String T, int *next)
{
    int i=1, j=0;
    next[1] = 0;
    while(i < T[0])
    {
        if(j == 0 || T[i] == T[j])
        {
            i++;
            j++;
            next[i] = j;
        }else
            j = next[j];//字符不匹配时，回溯
    }
}

//KMP算法
int Index_KMP(String S, String T, int pos)
{
    int i = pos;
    int j = 1;
    while(i <= S[0] && j <= T[0])
    {
        if(j==0 || S[i] == T[j])
        {
            i++;
            j++;
        }else
            j = next[j];//不匹配时j回退
    }
    if(j > T[0])
        return i - T[0];
    else
        return 0;   
}

int main()
{
    String A;
    String B;
    int i;
    int length1, length2;
    printf("请输入主串A的长度：");
    scanf("%d", &length1);
    printf("请输入子串B的长度：");
    scanf("%d", &length2);
    A[0] = length1;
    B[0] = length2;
	
	getchar();
    printf("请依次输入A中元素：");
    for(i=1; i<=length1; i++)
        scanf("%c", &A[i]);
	
	getchar();
    printf("请依次输入B中元素：");
    for(i=1; i<=length2; i++)
        scanf("%c", &B[i]);

    Get_next(B, next);
    printf("next数组：");
    for(i=1; i<=length2; i++)
        printf("%d ", next[i]);
    printf("\n");
    
    printf("匹配的位置为：%d", Index_KMP(A, B, 0));

    return 0;
}