KMP

一直对KMP有一种朦朦胧胧的感觉。今天看了几篇博文,得以理解。
http://www.cnblogs.com/yjiyjige/p/3263858.html
https://blog.csdn.net/yutianzuijin/article/details/11954939/
https://www.cnblogs.com/tangzhengyue/p/4315393.html

在KMP算法之前是朴素查找。

//假定主串和子串都不为空
//成功返回子串在主串中第一次出现的下标,失败返回-1
int searchSub(const char *str,const char *sub)
{
    int i = 0;
    int j = 0;

    while(str[i] != '\0' && sub[j] != '\0')
    {
        if(str[i] == sub[j])
        {
            ++i;
            ++j;
        }
        else
        {
            i = i-j+1;
            j = 0;
        }
    }

    if(sub[j] == '\0')
        return i-j;
    else
        return -1;
}

KMP算法

KMP算法是对朴素的改进,朴素算法中,当子串sub[i]和主串sub[j]失配时,主串需要回退到i-j+1的位置以重新匹配,KMP算法的改进在于,它不回退主串的i,只对子串的j进行修改,因为在失配之前的i-1个主串已经和子串经过比较了,朴素算法正式忽略了这个问题。

//KMP算法通过next数组获得子串j回退的位置
int* getNext(const char *sub)  
{
    int len = strlen(sub);
    int *next = new int[len];
    int i = 0;
    int j = -1;
    next[0] = -1;

    while (i < len) 
    {
        if (j == -1 || sub[i] == sub[j]) 
            next[++i] = ++j;
        else 
            j = next[j];
    }
    return next;
}  

一个例子:
这里写图片描述
“ABAB”的next数组为{-1,0,0,1}
当str[i]和sub[j]失配后j回退到1,sub[1]等于sub[j]等于B
这里写图片描述
所以回退到1并没有任何的意义,所以直接回退到0.

//优化后的next数组
int* getNextval(const char *sub)  
{
    int len = strlen(sub);
    int *next = new int[len];
    int i = 0;
    int j = -1;
    next[0] = -1;

    while (i < len) 
    {
        if (j == -1 || sub[i] == sub[j]) 
        {//aaaaaaab
            if (sub[i+1] == sub[j+1])
                next[++i] = next[++j];
            else
                next[++i] = ++j;
        }
        else
            j = next[j];
    }
    return next;
}
//KMP
int KMP(const char *str,const char *sub)
{
    int i = 0;
    int j = 0;

    int len = strlen(sub);
    int *next = new int[len+1];
    if(next == NULL)
        exit(1);
    memset(next,0,sizeof(int)*(len+1));
    Good_getNext(sub,next,len);

    while(str[i] != '\0' && sub[j] != '\0')
    {
        if(j == -1 || str[i] == sub[j])
        {
            ++i;
            ++j;
        }
        else
            j = next[j];
    }

    if(sub[j] == '\0')
    {
        delete []next;
        return i-j;
    }
    else
    {
        delete []next;
        return -1;
    }
}
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
我们这里说的KMP不是拿来放电影的(虽然我很喜欢这个软件),而是一种算法。KMP算法是拿来处理字符串匹配的。换句话说,给你两个字符串,你需要回答,B串是否是A串的子串(A串是否包含B串)。比如,字符串A="I'm matrix67",字符串B="matrix",我们就说B是A的子串。你可以委婉地问你的MM:“假如你要向你喜欢的人表白的话,我的名字是你的告白语中的子串吗?” 解决这类问题,通常我们的方法是枚举从A串的什么位置起开始与B匹配,然后验证是否匹配。假如A串长度为n,B串长度为m,那么这种方法的复杂度是O (mn)的。虽然很多时候复杂度达不到mn(验证时只看头一两个字母就发现不匹配了),但我们有许多“最坏情况”,比如,A= "aaaaaaaaaaaaaaaaaaaaaaaaaab",B="aaaaaaaab"。我们将介绍的是一种最坏情况下O(n)的算法(这里假设 m<=n),即传说中的KMP算法。 之所以叫做KMP,是因为这个算法是由Knuth、Morris、Pratt三个提出来的,取了这三个人的名字的头一个字母。这时,或许你突然明白了AVL 树为什么叫AVL,或者Bellman-Ford为什么中间是一杠不是一个点。有时一个东西有七八个人研究过,那怎么命名呢?通常这个东西干脆就不用人名字命名了,免得发生争议,比如“3x+1问题”。扯远了。 个人认为KMP是最没有必要讲的东西,因为这个东西网上能找到很多资料。但网上的讲法基本上都涉及到“移动(shift)”、“Next函数”等概念,这非常容易产生误解(至少一年半前我看这些资料学习KMP时就没搞清楚)。在这里,我换一种方法来解释KMP算法。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值