KMP总结

问题引入

长度为n的字符串T,长度为m的模式串P,要从T中找到所有的匹配点i,使得T[i~i+m-1] = P[0~m-1]

解决方法

  • 朴素的方法
    一个一个位置检查,每个位置都需要O(m)的复杂度,可能的匹配点可能有O(n-m)个所以复杂度基本上约等于O(nm)
  • KMP方法
    O(m) 的时间对模式串P进行预处理,然后用O(n)的时间进行匹配。所以时间负载度是O(m + n)。

KMP实现

要理解KMP最终要的是理解失配数组——fail数组(这里参考蓝书的写法,是为了更好理解AC自动机打基础!)。
我理解的思想:
模式串有可能在结构上有重复性,是指的是模式串中间的子串和前缀重复,这样的话在字符串中期匹配的过程中失配的话不用从头重新匹配。

举个例子,模式串:abeabc,当在最后一个c失配了,就需要从第一个ab后的e开始匹配,如果还是无法匹配就从头匹配。

查找的代码:

void find(char* T, char* P, int *f) {
    int n = strlen(T), m = strlen(P);
    getFail(P, f);
    int j = 0;
    for(int i = 0; i < n; i++) {
        while(j && P[j] != T[i]) j = f[j];
        if(P[j] == T[i]) j++;
        if(j == m) printf("%d\n", i - m + 1);  // 找到了
    }
}

Fail 数组的获得

思想:用自己匹配自己,具体实现看代码

void getFail(char *P, int* f) {
    int m = strlen(P);
    f[0] = 0, f[1] = 0;  // 地推的边界
    for(int i = 1; i < m; i++) {
        int j = f[i];
        while(j && P[i] != P[j]) j = f[j];   // 就相当于使用已经推出来的失配数组
        f[i+1] = P[i] == P[j] ? j + 1 : 0;
    }
}

这样写也OK:

    int i = 0;
    int j = nxt[0] = -1;
    for(;i <= m;) {
        if(j == -1 || ss[i] == ss[j]) {
            i++;
            j++;
            nxt[i] = j;
        }
        else j = nxt[j];       
    }
}
```

# 循环节
准确来说是前缀是周期性的字符串的判断,求周期数,求每个周期长度的方法。
判断:i % (i - f[i]) == 0(i != i - f[i],否则相当于周期为1)
周期数:i / (i-f[i])
周期长度:i - f[i]

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值