再看数据结构之KMP匹配

KMP算法是一种改进的字符串匹配算法,由D.E.Knuth与V.R.Pratt和J.H.Morris同时发现,因此人们称它为克努特–莫里斯–普拉特操作(简称KMP算法)。KMP算法的关键是利用匹配失败后的信息,尽量减少模式串与主串的匹配次数以达到快速匹配的目的。具体实现就是实现一个next()函数,函数本身包含了模式串的局部匹配信息。
假设主串与子串在子串第j个字符上,主串第i个字符上匹配不成功,那么如果存在(1<k<j),使得P1P2…Pk-1 = Pj-k+1Pj-k+2…Pj-1,那么将子串的k个字符与第i个字符对齐,跳过了k-1个字符,而跳过的这些字符信息就是根据模式串自身包含的信息所得到的。
推导过程如下:
假设存在这样的(1<k<j),那么可以推导出:
P1P2…Pk-1=Si-k+1Si-k+2…Si-1 (1)
而根据已经匹配的信息有:
Pj-k+1Pj-k+2…Pj-1=Si-k+1Si-k+2…Si-1 (2)
即可推出:
P1P2…Pk-1 = Pj-k+1Pj-k+2…Pj-1 (3)
那么如何推导出模式字符串的next[]值呢,假设对于模式字符串第j个字符,有
P1P2…Pk-1= Pj-k+1Pj-k+2…Pj-1
对于第j+1个字符,如果Pj=Pk,那么显而易见,next[j+1]=k+1=next[j]+1;当Pj!=Pk 时,那么滑动模式串,使得模式串第k个字符与第j个字符对齐,此时k’=next[k],比较Pk’与Pj个字符,如果相同,next[j+1]=k’+1=next[k]+1;如果不同继续滑动字符串,使得k”=next[k’],比较Pk”与Pj个字符,如此递推。代码如下:

#include <stdio.h>
void get_next(char *String, int next[]){
    char *s=String;
    int k=-1,j=0;   next[0]=-1;
    while(*s!='\0'){
        if(k==-1||String[j]==String[k]) { ++k ; ++j; ++s; next[j]=k;}
        else k=next[k]; 
    }
}


int KMP(char *host,char *pattern){
    int i=-1,j=-1;
    int lenHost = strlen(host);
    int lenPa = strlen(pattern);
    int next[lenPa];
    get_next(pattern,next);
    while(i<lenHost&&j<lenPa){
        if(j==-1||host[i] == pattern[j]){
            ++i; ++j;   
        }else{
            j=next[j];
        }
    }
    if(j==lenPa) return i-lenPa;
    return -1;
}

同时我们可以继续往下分析,当判断Pk不等于Pj时,则判断Pnext[k]是否与Pj相等,由之前得到的信息可得Pnext[k]=Pk,所以需要再次滑动,直到Pnext[k’]!=Pk’,即上一个不匹配的位置,所以代码可以做进一步优化:

#include <stdio.h>
void get_next(char *String, int next[]){
    char *s=String;
    int k=-1,j=0;   next[0]=-1;
    while(*s!='\0'){
        if(k==-1||String[j]==String[k]) { 
            ++k ; ++j; ++s;
            if(String[j]==String[k]) next[j]=next[k];
            else next[j]=k;
        }
        else k=next[k]; 
    }
}
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值