数据结构与算法 ---- KMP算法(串模式匹配算法)

KMP算法是对BF算法的改进,利用了在匹配过程中得到的信息跳过不必要的匹配,从而达到一个较高的匹配效率。

next数据

next数组是用来记录模式串弟j位和主串第i位匹配失败时,模式串需要移到k位继续主串第i位匹配。
next数组实际上记录的是模式串每一位前面的最长可匹配后缀和最长可匹配前缀,上图:
在这里插入图片描述

在这里插入图片描述

实现流程

第一次匹配:
在这里插入图片描述

匹配失败,i指针不动,j=2(next[3]的值)

第二次匹配:
在这里插入图片描述

匹配失败,i指针继续不动,j=1(next[2]的值)

第三次匹配:
在这里插入图片描述
匹配失败,i指针继续不动,j=0(next[1]的值)

第四次匹配:
在这里插入图片描述
匹配失败,j=-1(next[0]的值),当j=-1时,i加1移向下一位即i++

第五次匹配:
在这里插入图片描述
匹配失败,j=0(next[1]的值),i不动

第六次匹配:
在这里插入图片描述
匹配失败,j=-1(next[0]的值),i和j都加1

第七次匹配:
在这里插入图片描述
匹配成功!!

发现:从过程看似乎和BF算法没有区别,这是因为含有连续重复字符的字符串导致的,换成不会连续重复大的字符串就可以看出效果了,因此KMP算法可以进一步优化

KMP优化

从next数组下手

原来next数组代码:

//求next数组
void getNext()
{
    int i = 0; //pattern串的下标
    int j = -1; //
    next[0] = -1;
    while (i < pattern_len - 1)
    {
        if (j == -1 || pattern[i] == pattern[j])
        {
            ++i;
            ++j;//i,j相加之后pattern[0..j-1]和pattern[i-j....i-1]是相等的
            next[i] = j;//pattern[i]位字符匹配不成功时应该重新回到pattern[j]位进行匹配
        }
        else
            j = next[j];
    }
}

改进代码

//优化算法,求next数组的值
void getNext2()
{
    int i = 0; //pattern串的下标
    int j = -1; //
    next[0] = -1;
    while (i < pattern_len - 1)
    {

        if (j == -1 || pattern[i] == pattern[j])
        {
            ++i;
            ++j;
            if (pattern[i] != pattern[j]) //正常情况
                next[i] = j;
            else //特殊情况,这里即为优化之处。考虑下AAAB, 防止4个A形成012在匹配时多次迭代。相当于next[3]=next[2]=next[1]=next[0]=-1
                next[i] = next[j];
        }
        else
            j = next[j];
    }
}

改进后的next数组:
在这里插入图片描述
在这里插入图片描述

完整代码:

#include <stdio.h>
#include <string.h>

//求next数组
void getNext(char *T, int *next)
{
    int i = 0; //pattern串的下标
    int j = -1; //
    next[0] = -1;
    int pattern_len = strlen(T);
    while (i < pattern_len - 1)
    {
        if (j == -1 || T[i] == T[j])
        {
            ++i;
            ++j;
            if (T[i] != T[j]) //正常情况
                next[i] = j;
            else //特殊情况,这里即为优化之处。考虑下AAAB, 防止4个A形成012在匹配时多次迭代。相当于next[3]=next[2]=next[1]=next[0]=-1
                next[i] = next[j];
        }
        else
            j = next[j];
    }
}

int kmp(char * str,char * T)
{//字符串比较过程
    int i = 0, j = 0;
    int next[10];
    int str_len = strlen(str);
    int pattern_len = strlen(T);
    getNext(T,next); // 计算next数组;
    while (i < str_len && j < pattern_len)
    {
        if (j == -1 || str[i] == T[j])
        {
            ++i;
            ++j;
        }
        else
            j = next[j];
    }
    if (j >= pattern_len)
        return i - pattern_len;
    else
        return -1;
}

int main() 
{
	int i=kmp("aaababaaaca","aaac");
    printf("%d",i);
    return 0;
}

总结

KMP算法比BF算法高效在于它减少了一些比必要的匹配,当时当字符串有连续重复的字符时,KMP算法难以体现高效性,需要对KMP算法进一步优化

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值