模式匹配算法-CSDN博客

本文链接：https://blog.csdn.net/wyjwyl/article/details/77985963

串的模式匹配设有两个字符串S和T，设S 为主串，设T为子串。在主串S中查找与模式T相匹配的子串，如果匹配成功，确定相匹配的子串中的第一个字符在主串S中出现的位置。
一、 BF算法：
1. 指针i和j 分别指示主串S 和模式串T 中当前待比较的字符位置，i 和j初始值为1；
2. 取k来代替i从当前位置开始与j相匹配，此时的i用来记录它本来的值而k是要随着j的变化而变化的
3. 遇到不匹配的情况时，从i的下一位开始与j进行再一次的比较
这种方法简单易理解易实现但是过于冗余复杂度较高

#include <iostream>
#include<cstdio>
#include<cstring>
using namespace std;

int main()//BF算法，从主串的第一位开始 主串与模式串比较，不匹配时主串的指针要回去从下一位开始匹配
{
    int i,j,k,ans=-1;
    char S[1001],T[1001];
    scanf("%s%s",&S,&T);
    int lens,lent;
    lens=strlen(S);//主串的长度
    lent=strlen(T);//子串的长度
    for(int i=0;i<lens;++i){//从下一位重新开始匹配
        for(j=0,k=i;j<lent&&k<lens;++j){
            if(S[k]==T[j])
                ++k;
            else//也即 此时不匹配跳出匹配过程
                break;
        }
        if(j==lent){
            ans=i;
            break;
        }
    }
    printf("%d\n",ans);//输出开始位置 -1为未匹配成功
    return 0;//此方法虽然能够找到答案，但是时间复杂度很高 重复的过程很多即很慢
}

二、KMP
上面的BF算法不如说在S串中找到位置k 从k开始与T匹配之前需要遍历S从0到k 而kmp算法所做的工作就是让我们不必从0到k一步一步都遍历一遍而是跳着匹配这就要求我们在遇到不匹配的情况时需要知道下一步跳到哪里开始重新匹配也就是kmp中的next数组了。例如S 串为：ababcabcacbab T串为：abaca
这里写图片描述

而所谓的合适的位置是如何得来的呢
现在假设应与T串中的第k个字符继续比较例如上图第二次匹配，则T串的从1到k-1个字符应该是与S串的从（此时的i是此次匹配开始值i=8）i-k+1到i-1个字符相匹配的，而在第一次匹配过程中可以发现，S串的从（i=8, j=8）i-k+1到i-1个字符是与T串中j-k+1到j-1个字符是匹配的，所以第二次开始时跳到k=4是因为
T串的从1到k-1个字符和T串的从j-k+1到j-1个字符相匹配（j=8）
也就是说kmp基于的是模式串即T串本身的一种轮回？现在就是在基于模式串来求next数组，以发生不匹配时可以跳到合适的位置
当j=1时next[j]=0
next[j]=Max{ k| 1< k < j && T1…..Tk=Tj-k+1……Tj-1}即寻找最大的轮回
当k=1时也就是没有所谓的轮回时next[j]=1
在匹配过程中若Si==Tj 或者j==0则 i j 都自增1 否则 j 跳到next[j]位置
然后就是求next数组了由next数组的定义可知next[1]=0
假设next[j]=k 这表示在T串中 T1…..Tk-1 = Tj-k+1……Tj-1
讨论next[j+1]的值当Tk==Tj 时显然 next[j+1]=k+1;不等时仔细想一下这个过程是不是刚好是串的模式匹配过程不过这里主串和模式串都是T串不等时把身为模式串的T串右移右移到哪呢到next[k]啊(这里可以拿纸笔自己演算) 默认的存在 k < j 所以此时next[k]是已知条件这时若Tj==Tnext[k] 则 next[j+1]=next[k]+1 不等就继续找啊类似dfs一层一层往下找直到Tj!=T1 此时next[j+1]=1（最好的理解方式就是拿纸笔从头到尾自己演算一遍不省略任何一个步骤）
ok 这里说明一下由于本人偷懒简陋的代码里字符串是从0开始存的 next[0]=-1 中心思想是没变的

#include <iostream>
#include<cstdio>
#include<cstring>
using namespace std;
int main()
{
    int next[1001];
    char S[1001],T[1001];
    scanf("%s%s",&S,&T);
    int lens=strlen(S);
    int lent=strlen(T);
    int i=0,j=-1,ans=-1;
    next[i]=j;
    while(i<lent){
        if(j==-1||T[i]==T[j]){
            ++i;
            ++j;
            //if(T[i]!=T[j])
                next[i]=j;
            //else
                //next[i]=next[j];
        }
        else
            j=next[j];
    }
    i=0,j=0;
    while(i<lens){
        if(j==-1||S[i]==T[j]){
            ++i;
            ++j;
        }
        else
            j=next[j];
        if(j==lent){
            ans=i-j;
            break;
        }
    }
    printf("%d\n",ans);//此答案为从0开始计数。。。
    return 0;
}

最后讲一下求nextval数组可以发现代码中注释掉的部分添上就是求nextval数组了
这里发现一件很有意思的事情之前求next数组时 next[j]=k 求next[j+1]值时第一种情况就是Tj==Tk 现在讨论这种情况下主串S和模式串T匹配过程中刚好到 j 这个位置失配了此时由next[j]=k 就要跳到 k 这个位置进行比较了可是Tj==Tk啊不用比较就知道不匹配啊可是前面求的时候就这样求的错了吗没啊前面没错这里也没错可是怎么就不一样了呢因为前面是根据这两个求的是next[j+1]的值啊讨论的是j+1不匹配的时候跳到哪里这里是j不匹配跳到哪里 ok 清楚就行
nextval数组处理的就是上面这种情况减去无谓的匹配这也就有了代码中的注释部分
最后此篇文章借鉴于严蔚敏等主编的数据结构（C语言版）课本有错欢迎指出谢谢