C语言详解KMP算法

菜鸡爱玩

已于 2023-03-22 22:11:17 修改

阅读量676

点赞数 3

分类专栏：算法文章标签： c语言 Powered by 金山文档

于 2023-03-17 19:34:31 首次发布

本文链接：https://blog.csdn.net/2201_75324712/article/details/129621024

版权

算法专栏收录该内容

8 篇文章 0 订阅

订阅专栏

如果给你一个字符串和该字符串的一个子字符串你能否快速找出该子字符串的所在位置

我猜这里会有一群杠精说可以找到

真的吗那下面这个字符串你可以一眼看出来吗

你能找出来吗如果能算你眼神好如果不能那就看看接下来我怎么做

你有想到暴力求解法吗？

——来自百度百科

BF算法，即暴力(Brute Force)算法，是普通的模式匹配算法，BF算法的思想就是将目标串S的第一个字符与模式串T 的第一个字符进行匹配，若相等，则继续比较S的第二个字符和 T的第二个字符；若不相等，则比较S的第二个字符和 T的第一个字符，依次比较下去，直到得出最后的匹配结果。BF算法是一种蛮力算法

——个人理解

暴力求解法——就是将主串和字串的对应字符挨个去比较

相同就比较下一个

不相同将主串回退到刚开始字符的下一个位置再将子串回退到第一个字符的位置

如此反复直到遍历完整个主串时间复杂度很高O(m*n)

m主串长度 n子串长度

那么这个暴力求解（Brute Force）怎样实现呢？

int BF(const char* s, const char* arr, int pos)
{
    assert(s && arr);//判断两个地址为不为空

    int lens = strlen(s);
    int lena = strlen(arr);

    int i = 0, j = 0;
    while (i < lens && j < lena)//只要没到尾部 就一直循环
    {
        if (s[i] == arr[j])
        {
            i++;
            j++;
        }
        else
        {
            i = i - j + 1;// 因为要退回 主字符串刚开始匹配的下一个字符串 -j 是为了找到刚开始的字符 +1是找到下一个字符
            j = 0;//子字符串退回到开头
        }
    }
    if (j >= lena)
    {
        return i - j;//这里和上面理解相似
    }
    else
    {
        return -1;
    }
}


int main()
{
    char* s = "ababcabcdabcde";//用字符串常量存储字符串 字符串常量不能被改变
    char* arr = "abcd";

    printf("%d\n", BF(s, arr, 0));

    return 0;
}

虽然暴力求解可以找到但是每次匹配失败主串都要回退到刚开始字符的下一个位置

这就导致了时间复杂的上升如果主字符串特别长子字符串也很长那么时间复杂度会很大计算机有可能运算不出来

如何优化呢？那就要讲到这篇文章的主角KMP算法它很好的解决了主串字符不回退的问题

KMP算法是一种改进的字符串匹配算法，由D.E.Knuth，J.H.Morris和V.R.Pratt提出的，因此人们称它为克努特—莫里斯—普拉特操作（简称KMP算法）。KMP算法的核心是利用匹配失败后的信息，尽量减少模式串与主串的匹配次数以达到快速匹配的目的。具体实现就是通过一个next()函数实现，函数本身包含了模式串的局部匹配信息。KMP算法的时间复杂度O(m+n) [1] 。来自-------百度百科。

区别：KMP 和 BF 唯一不一样的地方在，我主串的 i 并不会回退，并且 j 也不会移动到 0 号位置

首先举例子看看为什么主串不回退

假设目前匹配失败主串退回到1号位置也是没有必要的因为b和子串0位置的a 也不一样（从暴力求解算法角度来看）

既然主串i不回退那么就只能让j回退了那么j应回退到哪个位置呢？

此时匹配失败，我们不进行回退i 因为在这个地方匹配失败，说明i的前面和j的前面，是有一部分相同的

，不然两个下标不可能走到这里来是不是这个理

看到这个图我们会发现如果j回退到2下标 i不回退这就是最好的结果

那么问题就是j咋知道回退到2号位置？

那就需要一个数组去告诉它该回退到哪一个下标

也就是next数组 —— KMP的精髓就是next数组：也就是用next[j] = k;来表示，不同的j来对应一个k值，这个k值就是你将来要移动j 去哪个下标

那么k值是怎样求的呢？

1，规则：找到匹配成功部分的两个相等的真子串（不包含本身），一个以下表0字符开始，另一个以j-1下标字符结尾。

2，不管什么数据next[0]=-1;next[1]=0;在这里我们以下标来开始，而说到的第几个第几个是从1开始；

这里有两道练习题来练习怎样求next数组

练习1：”ababcabcdabcde” -1 0 0 1 2 0 1 2 0 0 1 2 0 0 练习2：”abcabcabcabcdabcde” -1 0 0 0 1 2 3 4 5 6 7 8 9 0 1 2 3 0

到这里大家对如何求next数组应该问题不大了，接下来的问题就是，已知next[i] = k;怎么求next[i+1] = ?

后面的没求完你可以自己去求一下

如果我们能够通过 next[i]的值,通过一系列转换得到 next[i+1]得值，那么我们就能够实现这部分。那该怎么做呢？首先假设： next[i] = k 成立，那么，就有这个式子成立： P0...Pk-1 = Px...Pi-1;得到： P0...Pk-1 = Pi-k..Pi-1; 到这一步：我们再假设如果 Pk = Pi;我们可以得到 P0...Pk = Pi-k..Pi;那这个就是 next[i+1] = k+1;

k 就是以0开始的字符向后找k-1个字符以第k-1个字符结尾为前一个字符串

i就是以j-1结尾的字符向前找k-1个字符以第i-k个字符开始为后一个字符串

将两个字符比较确定i对应的next[i]的值

当p[i] == p[k] 此时next[i+1] = k+1 next[5] = 2

当p[k] != p[i]

此时p[i] != p[k] 那么k要继续回退到0下标也就是新的k_new = next[k];

进一步回退后p[0] == p[i] 那么就符合next[i+1] = k_new+1;

也就是next[6] = 0 + 1 = 1

void GetNext(int* next, const char* arr)
{
    int len = strlen(arr);
    next[0] = -1;
    next[1] = 0;

    int i = 2;
    int k = 0;
    while (i < len)
    {
        if (k == -1 || arr[k] == arr[i - 1])
        {
            next[i] = k + 1;
            i++;
            k++;
        }
        else
        {
            k = next[k];
        }
    }

}


int kmp(const char* s, const char* arr, int pos)
{
    assert(s && arr);
    int len1 = strlen(s);
    int len2 = strlen(arr);

    int i = pos;
    int j = 0;

    int* next = (int*)malloc(sizeof(int) * len2);//next数组的大小和 arr(待寻找的数组大小相同)
    assert(next);
    GetNext(next, arr);
    
    while (i < len1 && j < len2)
    {
        if ((j == -1) || (s[i] == arr[j]))
        { 
            i++;
            j++;
        }
        else
        {
            j = next[j];
        }
    }
    free(next);
    next = NULL;
    if (j >= len2)
    {
        return i - j;
    }
    else
    {
        return -1;
    }
}


int main()
{
    char *s = "ababcabcdabcde";
    char *arr = "abcd";

    printf("%d ", kmp(s, arr, 0));

    return 0;
}

以上代码如有不懂留言私信 ~