字符串匹配问题
- 字符串A是否为字符串B的子串?如果是的话出现在B的哪些位置?
- 该问题就是字符串匹配问题,字符串A称为模式串,字符串B称为主串。
暴力做法
- 我们可以枚举模式串在主串中的起点i,然后依次对比A[0]和B[i]……A[len(A)]和B[i+len(A)],如果相同则匹配成功,否则继续枚举起点。
- 如果每次都是在最后一位失配,则会产生最坏的情况,时间复杂度为O(nm),n、m分别为A、B的长度。
优化算法(KMP)
- 两个字符串是否相同的比较很难优化,只能逐个字符比较。然而比较的次数是可以减少的,因此尽可能减少比较的次数是算法优化的方向,也是KMP算法的核心思想。
- KMP算法分为两步:1)求next数组;2)字符串匹配。
- 如何减少匹配次数呢?我们可以观察每次匹配时隐含的信息。
- 给定模式串A=“abcabd”,主串B=“abcabcabd”
- 该做法的正确性这里不作证明。
- Q:现在,我们的问题是:如何求最长的相同的前缀pre和后缀suf?
- A:next数组!
next数组
求next数组code
void getNext(int len, char str[])
{
//需要注意,我们是第j+1位和第i位比较
for (int i = 2, j = 0; i <= len; i++) {
//失配。如果j为0则说明没有相同的前缀和后缀,所以j=0可以推出ne[j]=j=0,因此退出循环
while (str[i] != str[j + 1] && j) j = ne[j];
//无论是否失配,我们都要比较主串第i位和模式串的第j+1位
if (str[i] == str[j + 1]) j++;
//①等于③,所以子串[1-i]的最长相同前后缀为[1-j]、[?-i]
ne[i] = j;
}
}
例题
给定一个字符串 S,以及一个模式串 P,所有字符串中只包含大小写英文字母以及阿拉伯数字。
模式串 P 在字符串 S 中多次作为子串出现。
求出模式串 P 在字符串 S 中所有出现的位置的起始下标。
完整代码
#include <iostream>
using namespace std;
const int N = 1000010;
char a[N], b[N];
int aLen, bLen;
int ne[N];
void getNext(int len, char str[])
{
for (int i = 2, j = 0; i <= len; i++) {
while (str[i] != str[j + 1] && j) j = ne[j];
if (str[i] == str[j + 1]) j++;
ne[i] = j;
}
}
int main()
{
cin >> aLen >> a + 1 >> bLen >> b + 1;
getNext(aLen, a);
for (int i = 1, j = 0; i <= bLen; i++) {
while (a[j + 1] != b[i] && j) j = ne[j];
if (a[j + 1] == b[i]) j++;
if (j >= aLen) {
cout << i - aLen<< ' ';
j = ne[j];
}
}
return 0;
}