再看数据结构之KMP匹配

最新推荐文章于 2022-12-13 21:35:46 发布

ObjectTJ

最新推荐文章于 2022-12-13 21:35:46 发布

阅读量362

点赞数

分类专栏：再看数据结构文章标签： kmp 数据结构

本文链接：https://blog.csdn.net/ObjectTJ/article/details/50575580

版权

再看数据结构专栏收录该内容

0 篇文章 0 订阅

订阅专栏

KMP算法是一种改进的字符串匹配算法，由D.E.Knuth与V.R.Pratt和J.H.Morris同时发现，因此人们称它为克努特–莫里斯–普拉特操作(简称KMP算法)。KMP算法的关键是利用匹配失败后的信息，尽量减少模式串与主串的匹配次数以达到快速匹配的目的。具体实现就是实现一个next()函数，函数本身包含了模式串的局部匹配信息。
假设主串与子串在子串第j个字符上，主串第i个字符上匹配不成功，那么如果存在(1<k<j)，使得P1P2…Pk-1 = Pj-k+1Pj-k+2…Pj-1,那么将子串的k个字符与第i个字符对齐，跳过了k-1个字符，而跳过的这些字符信息就是根据模式串自身包含的信息所得到的。
推导过程如下：
假设存在这样的(1<k<j)，那么可以推导出:
P1P2…Pk-1=Si-k+1Si-k+2…Si-1 (1)
而根据已经匹配的信息有:
Pj-k+1Pj-k+2…Pj-1=Si-k+1Si-k+2…Si-1 (2)
即可推出:
P1P2…Pk-1 = Pj-k+1Pj-k+2…Pj-1 (3)
那么如何推导出模式字符串的next[]值呢，假设对于模式字符串第j个字符，有
P1P2…Pk-1= Pj-k+1Pj-k+2…Pj-1
对于第j+1个字符，如果Pj=Pk，那么显而易见，next[j+1]=k+1=next[j]+1;当Pj！=Pk 时，那么滑动模式串，使得模式串第k个字符与第j个字符对齐，此时k’=next[k],比较Pk’与Pj个字符，如果相同，next[j+1]=k’+1=next[k]+1;如果不同继续滑动字符串，使得k”=next[k’],比较Pk”与Pj个字符，如此递推。代码如下：

#include <stdio.h>
void get_next(char *String, int next[]){
    char *s=String;
    int k=-1,j=0;   next[0]=-1;
    while(*s!='\0'){
        if(k==-1||String[j]==String[k]) { ++k ; ++j; ++s; next[j]=k;}
        else k=next[k]; 
    }
}


int KMP(char *host,char *pattern){
    int i=-1,j=-1;
    int lenHost = strlen(host);
    int lenPa = strlen(pattern);
    int next[lenPa];
    get_next(pattern,next);
    while(i<lenHost&&j<lenPa){
        if(j==-1||host[i] == pattern[j]){
            ++i; ++j;   
        }else{
            j=next[j];
        }
    }
    if(j==lenPa) return i-lenPa;
    return -1;
}

同时我们可以继续往下分析，当判断Pk不等于Pj时，则判断Pnext[k]是否与Pj相等，由之前得到的信息可得Pnext[k]=Pk,所以需要再次滑动，直到Pnext[k’]!=Pk’,即上一个不匹配的位置，所以代码可以做进一步优化：

#include <stdio.h>
void get_next(char *String, int next[]){
    char *s=String;
    int k=-1,j=0;   next[0]=-1;
    while(*s!='\0'){
        if(k==-1||String[j]==String[k]) { 
            ++k ; ++j; ++s;
            if(String[j]==String[k]) next[j]=next[k];
            else next[j]=k;
        }
        else k=next[k]; 
    }
}