KMP算法实现

最新推荐文章于 2024-08-16 17:43:39 发布

HouszChina

最新推荐文章于 2024-08-16 17:43:39 发布

阅读量2.2k

点赞数 1

分类专栏： algorithm and data structure 文章标签： KMP

本文链接：https://blog.csdn.net/HouszChina/article/details/78885004

版权

algorithm and data structure 专栏收录该内容

10 篇文章 4 订阅

订阅专栏

在KMP算法原理中，我们简要分析了KMP算法的原理，在直观上了解了算法流程，并分析了KMP算法之于暴力算法的效率提升之处。这里我们就从暴力算法出发，根据算法基本流程一步步实现典型的KMP算法。

文中出现的名词：

模式串（pattern，P），长度为m，当前字符指针i

文本串（text，T）,长度为n，当前字符指针j

1.暴力算法（BF）

暴力算法的是最直接的匹配算法，分别给模式串P和文本串T两个指针j和i，从文本串第一个字符开始匹配模式串，直到匹配成功或者指针i越界为止。

int match(char* P, char* T)
{
    int n = (int)strlen(T), i = 0;    //文本串长度n，当前接受比较字符位置i
    int m = (int)strlen(P), j = 0;    //模式串长度m，当前接受比较字符位置j

    while (j < m && i < n)  //自左向右逐个比较字符
    {
        if (T[i] == P[j])   //若当前字符匹配成功，则跳到下一个字符
        {
            i++;
            j++;
        }
        else                //若当前字符匹配失败，则文本串回退、模式串复位
        {
            i -= j - 1;
            j = 0;
        }
    }
    return i - j;   //如果匹配成功，i-j为P相对于T的对齐位置；如果匹配失败，i-j必然>n-m
}

暴力算法的正确性是显而易见的，但在最坏情况下时间复杂度为文本串长度与模式串长度乘积，稍大规模的应用环境就难以接受了。

2.KMP算法

暴力算法的低效率在于存在大量的重复匹配。每轮匹配失败后，文本串和模式串的指针都要回退并从头开始下一轮比较。实际上，上一轮匹配的信息我们已经掌握，如果能利用这些信息就能提高算法的效率。通过利用以往成功比较所获得的信息，不仅可以避免文本串指针回退，并且可以使模式串尽可能大跨度右移。KMP算法的核心思想就是将信息转化为预知。

考虑一般情况，某轮比较匹配失败在 P[j] != T[i]，则说明P[0, j) 和 T[i-j, i)已经完全匹配成功了，而下一轮比较中应与T[i]对齐的P[j]完全由子串P[0, j)决定。上文中每次匹配所获得的信息正是来自于子串P[0, j)。因此我们为模式串的每个字符构造一个 查询表（next table），即 前缀表（prefix table），就能将信息转化为对下次匹配起始位置的预知。具体原理请见 KMP算法原理。

int* buildNext(char* P) //构造模式串P的next表
{
    size_t m = strlen(P), j = 0;
    int* N = new int[m];//next表
    int t = N[0] = -1;//模式串指针
    while (j < m - 1)
    {
        if (0 > t || P[j] == P[t])//匹配
        {
            j++; t++;
            N[j] = t;
        }
        else //匹配失败
            t = N[t];
    }
}

int match(char* P, char* T)
{
    int* next = buildNext(P);         //构造next表
    int n = (int)strlen(T), i = 0;    //文本串长度n，文本串指针i
    int m = (int)strlen(P), j = 0;    //模式串长度m，文本串指针j

    while (j < m && i < n)            //自左向右逐个比较字符
    {
        if(0 > j || T[i] == P[j])     //若匹配成功，或P已经移出最左侧（即j==-1），（注：两个判断顺序不能交换）
        {
            i++; j++;                 //移到下一字符
        }
        else
            j = next[j];              //模式串根据next表右移，而文本串不必回退

    }

    delete []next;  //释放next表
    return i - j;   //如果匹配成功，i-j为P相对于T的对齐位置；如果匹配失败，i-j必然>n-m
}