kmp算法
假设有两个字符串S和P
我们需要从字符串S中找到字符串P,并给出具体下标
首先定义两个下标变量 i、 j
字符串的存储都是从下标1开始存储的,下标 j 从下标 0开始遍历,每次下标 i 和下标 j+1 的值进行比较
先模拟一下kmp的核心之处
下标 i 指向 a 开始进行匹配
直到指向 c 的时候,这时候发现 值不一样了,需要重新进行匹配,正常暴力做法下,下标 j 应该复原到 下标 0处,并且下标 i 也要往后退
但是实际情况是,下标 j 不需要退那么多,下标 j 只需要退到 第一个b字母处(j+1为第二个a字母处)
原因是 如果 ababe 中的 e 没有匹配上,说明abab一定匹配上了,那么整个 ababe的再次匹配只需要从第二个字母 a处开始匹配,因为 ababc 中 c 的前面是 ab了
也就是说 j 下标需要退到,匹配失败的字母前 刚好和 字符串P的前面部分字符串相等时
这里的c 匹配失败了,但是它前面的 ab 刚好和 字符串P前面的字符串相等了,所以直接从ab 后面匹配即可。
kmp算法当中,会有一个ne数组,用于记录匹配不成功后,下标 j 退的最少的坐标
ne数组的长度和 被找的字符串的长度一样
比如刚才的 a b a b e
它的ne数组如下:
下标 | 0 | 1 | 2 | 3 | 4 | 5 |
---|---|---|---|---|---|---|
字符串 | 0 | a | b | a | b | e |
数组ne | 0 | 0 | 0 | 1 | 2 | 0 |
比如这里 的 abab中的 最后一个b匹配失败,那么就会已经匹配的字符串会从 aba变成 a 然后继续匹配
题目与代码
给定一个字符串 S S S,以及一个模式串 P P P,所有字符串中只包含大小写英文字母以及阿拉伯数字。
模式串 P P P 在字符串 S S S 中多次作为子串出现。
求出模式串 P P P 在字符串 S S S 中所有出现的位置的起始下标。
输入格式
第一行输入整数 N N N,表示字符串 P P P 的长度。
第二行输入字符串 P P P。
第三行输入整数 M M M,表示字符串 S S S 的长度。
第四行输入字符串 S S S。
输出格式
共一行,输出所有出现位置的起始下标(下标从 0 0 0 开始计数),整数之间用空格隔开。
数据范围
1
l
e
N
l
e
1
0
5
1 \\le N \\le 10^5
1leNle105
1
l
e
M
l
e
1
0
6
1 \\le M \\le 10^6
1leMle106
输入样例:
3
aba
5
ababa
输出样例:
0 2
准备阶段:
注意这里的字符串存储是从下标1开始存储的。
kmp共有两个步骤
- 遍历模式串P 求得数组ne
- 利用 数组ne 遍历字符串S 得到答案
完