【数据结构】KMP算法的概念及实现

引言:

在计算机科学中,字符串匹配是一个常见的问题,即在一个主串中查找一个模式串是否出现。朴素的字符串匹配算法需要对主串和模式串进行逐个字符的比较,时间复杂度为O(m*n),其中m和n分别是主串和模式串的长度。然而,当主串和模式串较长时,这种暴力匹配算法的效率较低。

为了提高字符串匹配的效率,KMP(Knuth-Morris-Pratt)算法应运而生。KMP算法通过构建一个next数组,利用模式串的局部匹配信息来实现快速的字符串匹配。相比于朴素的暴力匹配算法,KMP算法具有更高的效率,时间复杂度为O(m+n)。

本篇博客将介绍KMP算法的原理和实现方法。我们将详细解释next数组的求解过程,并给出具体的实现代码。同时,我们还将讨论KMP算法的应用领域和一些相关的扩展问题。

希望通过本篇博客的介绍,你能够深入理解KMP算法,并能够应用于实际问题中。让我们开始探索KMP算法的奥秘吧!

BF算法

是普通的模式匹配算法,BF算法的思想就是将目标串S的第一个字符与模式串T 的第一个字符进行匹配,若相等,则继续比较S的第二个字符和 T的第二个字符;若不相等,则比较S的第二个字符和 T的第一个字符,依次比较下去,直到得出最后的匹配结果。BF算法是一种蛮力算法。时间复杂度为O(m*n),一般不推荐使用。

假定我们给出字符串 ”ababcabcdabcde”作为主串, 然后给出子串: ”abcd”,现在我们需要查找子串是否在主串中 出现,出现返回主串中的第一个匹配的下标,失败返回-1 ;

只要在匹配的过程当中,匹配失败,那么:i回退到刚刚位置的下一个,j回退到0下标重新开始。

对应的代码模板如下: 

/* str:主串 sub:子串 */
int BF(char *str,char *sub) { 
assert(str != NULL && sub != NULL); 
 if(str == NULL || sub == NULL) { 
    return -1;
}
 int i = 0; 
 int j = 0; 
 int strLen = strlen(str); 
 int subLen = strlen(sub); 
 while(i < strLen && j < subLen) { 
 if(str[i] == sub[j]) {
    i++; 
    j++; 
 } 
 else {
 //回退 
 i = i-j+1; 
 j = 0; 
 } 
}
 if(j >= subLen){
 return i-j;
 }
 return -1;
}

 

KMP算法

KMP算法的核心是利用匹配失败后的信息,尽量减少模式串与主串的匹配次 数以达到快速匹配的目的。具体实现就是通过一个next()函数实现,函数本身包含了模式串的局部匹配信息。KMP算法的时间复杂度O(m+n) 。

区别:KMP 和 BF 唯一不一样的地方在,我主串的 i 并不会回退,并且子串的 j 也不会移动到 0 号位置。

那么我的主串不回退,我要怎么进行移动子串上的j来进行匹配呢?

答案是移动j到当前字符串前缀和后缀相同的地方,这样就避免了重复匹配的多余操作,从而将O(m*n)的算法降为O(M+N)的算法。我们用next数组来记录每次不匹配时j应该跳到的位置k。

而 K 的值是这样求的:

1、规则:找到匹配成功部分的两个相等的真子串(不包含本身),一个以下标 0 字符开始,另一个以 j-1 下标

字符结尾。

2、不管什么数据 next[0] = -1;next[1] = 0;在这里,我们以下标来开始,而说到的第几个第几个是从 1 开始;

求next数组的练习:

练习 1: 举例对于”ababcabcdabcde”, 求其的 next 数组?

-1 0 0 1 2 0 1 2 0 0 1 2 0 0

练习 2: 再对”abcabcabcabcdabcde”,求其的 next 数组? "

-1 0 0 0 1 2 3 4 5 6 7 8 9 0 1 2 3 0

接下来就是对于next[i+1]=?的求解从而得到一个普适公式:

我们先假设next[i]=k成立,那么p[0]…p[k-1]=p[x]…p[i-1],因为前缀和后缀的长度相等,则x=i-k。那么当p[k]==p[i] 时,next[i+1]=k+1。

那么当p[k] != p[i] 时,那么k就要回退到next[k] 如果此时p[k]==p[i],那么next[i+1]=k+1,如果还是不等就要一直回退直到k=0,如果p[0]==p[i],那么next[i+1]=1,如果还是不等,next[i+1]=-1+1=0。 

 那么接下来来看代码:

void GetNext(int *next,const char *sub){
 int lensub = strlen(sub);
 next[0] = -1;
 next[1] = 0;
 int i = 2;//下一项
 int k = 0;//前一项的K
 while(i < lensub)//next数组还没有遍历完
 {
    if((k == -1) || sub[k] == sub[i-1])//
   {
        next[i] = k+1;
        i++;
        k++;//k = k+1???//下一个K的值新的K值
    }
    else
    {
        k = next[k];
    }
 }
}
int KMP(const char *s,const char *sub,int pos)
{
 int i = pos;
 int j = 0;
 int lens = strlen(s);
 int lensub = strlen(sub);
 int *next = (int *)malloc(lensub*sizeof(int));//和子串一样长
 assert(next != NULL);
 GetNext(next,sub);
 while(i < lens && j < lensub)
 {
    if((j == -1) || (s[i] == sub[j])){
    i++;
    j++;
   }
    else{
    j = next[j];
    }
 }
 free(next);
 if(j >= lensub)
 {
    return i-j;
 }
 else
 {
    return -1;
 }
}

 结尾

在本篇博客中,我们介绍了KMP算法的原理和实现方法。KMP算法通过构建next数组,利用模式串的局部匹配信息来实现快速字符串匹配。相比于朴素的暴力匹配算法,KMP算法具有更高的效率,时间复杂度为O(m+n)。

在KMP算法中,next数组的求解是关键步骤。通过观察模式串的规律,我们可以逐步求解出每个位置的next值,从而实现指针的快速移动。通过实现一个KMP函数,我们可以在主串中进行模式串的匹配,找到第一个匹配的位置。

KMP算法的应用非常广泛,例如在字符串匹配、文本搜索、DNA序列分析等领域都有广泛的应用。其核心思想和方法也可以用于其他问题的解决,具有一定的普适性。

希望通过本篇博客的介绍,你对KMP算法有了更深入的了解。如果你有任何问题或者想要了解更多相关内容,欢迎留言交流。感谢阅读!

 

 

 

 

评论 9
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值