字符串匹配KMP算法
给出两个字符串
S
1
S_1
S1 和
S
2
S_2
S2 ,其中
S
2
S_2
S2 为
S
1
S_1
S1 的子串.
1.
1.
1. 求出
S
2
S_2
S2 在
S
1
S_1
S1中所有出现的位置.
2.
2.
2. 输出子串的前缀数组
n
x
t
[
i
]
nxt[i]
nxt[i].
先引入两个概念(通俗解释):
文本串:被用来查找模式串的字符串。 (即
S
1
S_1
S1 )
模式串:要查找的字符串。(即
S
2
S_2
S2 )
将模式串与文本串做匹配时,若用传统的从头到尾匹配法,复杂度
O
(
N
+
M
)
O(N+M)
O(N+M) 到
O
(
N
∗
M
)
O(N*M)
O(N∗M) 不等。考虑用奇怪的玄学方法优化。
如果 模式串匹配到最后几位了,发现出现了失配,那么全面放弃还是挺可惜的,毕竟前边匹配了那么多。如果当前的模式串前面出现了 一个真子集,与该模式串前缀相同,那么该前缀可以向前移动过来啊,这一部分也一定匹配的。也就是说,将模式串整体向前移动也若干位,因为我们通过前缀移动自动匹配的,我们保证其匹配。
比如:
模式串:
A
B
C
A
B
C
D
ABCABCD
ABCABCD
文本串:
A
B
C
A
B
C
A
B
C
D
ABCABCABCD
ABCABCABCD
匹配前六个字符时成功,但是第七位不成功,但发现第
1
1
1、
2
2
2、
3
3
3 位字符与第
4
4
4、
5
5
5、
6
6
6 位字符相同,那么我们可以把前三位字符向前推进三位,然后再往后推进。这样就得到了优化。问题在于,当第七位失配时,如何确定第六位应该对应前边第几位呢,从这个样例来看,显然是第三位,所以引入
n
x
t
[
i
]
nxt[i]
nxt[i] 数组,表示
在
模
式
串
第
在模式串第
在模式串第
i
i
i
位
失
配
时
位失配时
位失配时,
应
该
退
回
到
应该退回到
应该退回到
n
x
t
[
i
]
nxt[i]
nxt[i]
位
位
位,再次向后匹配。所以我们应该预处理
n
x
t
[
i
]
nxt[i]
nxt[i] 数组。
所以上边样例的
n
x
t
[
i
]
nxt[i]
nxt[i] 的值(从下标
1
1
1 开始):
0
、
0
、
0
、
1
、
2
、
3
、
0
0、0、0、1、2、3、0
0、0、0、1、2、3、0
预处理方法如图所示:
int p = 0;
for(int i = 2; i <= len2; i++)
{
while(p && s2[i] != s2[p+1]) p = nxt[p];
if(s2[p+1] == s2[i]) p++;
nxt[i] = p;
}
那么与文本串匹配时的书写,如下所示:
p = 0;
for(int i = 1; i <= len1; i++)
{
while(p && s2[p+1] != s1[i]) p = nxt[p];
if(s2[p+1] == s1[i]) p++;
if(p == len2)
{
printf("%d\n",i-len2+1);
p = nxt[p];
}
}
还没做练习题,待学完AC自动机后再补题补坑吧(2020年2月21日 14:12:40)
完整代码:
#include <iostream>
#include <cstdio>
#include <algorithm>
#include <cstring>
#include <cmath>
#include <cstdlib>
using namespace std;
char s1[1001000],s2[1000100];
int nxt[1001000];
int main()
{
scanf("%s%s",s1+1,s2+1);
int len1 = strlen(s1+1), len2 = strlen(s2+1);
int p = 0;
for(int i = 2; i <= len2; i++)
{
while(p && s2[i] != s2[p+1]) p = nxt[p];
if(s2[p+1] == s2[i]) p++;
nxt[i] = p;
}
p = 0;
for(int i = 1; i <= len1; i++)
{
while(p && s2[p+1] != s1[i]) p = nxt[p];
if(s2[p+1] == s1[i]) p++;
if(p == len2)
{
printf("%d\n",i-len2+1);
p = nxt[p];
}
}
for(int i = 1; i <= len2; i++)
printf("%d ",nxt[i]);
system("pause");
return 0;
}