1. 算法思路
KMP算法,很多同学一开始学起来会比较头疼,其实这个算法的想法还是很直观的,也是比较容易理解的。
KMP算法主要是为了实现字符串匹配的功能,也是就给出一个短的字符串和一个长的字符串,使用KMP算法看看长的字符串中是否出现过短的字符串(或者出现过几次、在哪里出现的)。
我们结合一个具体例子,首先从暴力做法开始思考。
p = "ababac"
s = "xababawababc"
暴力的做法是这样的,我们首先将两个字符串对齐,从第一个字母开始比较
x
ababawababc
a
babac
可以看到,第一个字母,二者是不匹配的。于是我们将短的字符串向后移动一位继续尝试
xa
babawababc
a
babac
可以看到第一位匹配上了,后面也能继续匹配上直到
xababaw
ababc
ababac
最后一步,没有匹配上,唉,差一点,没事,生活中很多事情都是差一点就要成功了,可是没有成功,我们继续将p串后移一位,继续从第一个字符开始匹配。就这样一步一步的匹配我们最终就可以找到s串中p串的位置。虽然找到了最终结果,可是对于刚才差一点就要成功的遗憾我们还是迟迟不能忘怀,那么我们刚才的努力难道真的白费了吗?
这就轮到我们的kmp算法登场了。我们发现,我们匹配上了的部分ababa的前三个字母aba和后三个字母aba是相同的,只需要让aba挪到后三个aba的位置上,此时前三个字母一定是匹配的,因为前三个字母跟后三个字母相同,后三个字母跟长串的对应三个字母相同,所以前三个字母一定跟长串的对应三个字母相同。这样我们就不用从第一个字符开始进行匹配了。
我们希望找到的这种前几个字母和后几个字母的长度越长越好,这样我们需要进行匹配的数量就变少了。我们将前几个字母称为前缀,后几个字母称为后缀,因此对于短串来说,我们需要找到每个位置上的最长相同前缀和后缀长度, 并存储在一个next数组中,这样一但某个位置不能匹配,例如上例中的c处不能匹配,我们就能通过next数组,找到前缀ada后面一个字符,继续进行匹配。
2. 例题
给定一个模式串 S,以及一个模板串 P,所有字符串中只包含大小写英文字母以及阿拉伯数字。
模板串 P 在模式串 S 中多次作为子串出现。
求出模板串 P 在模式串 S 中所有出现的位置的起始下标。
输入格式
第一行输入整数 N,表示字符串 P 的长度。
第二行输入字符串 P。
第三行输入整数 M,表示字符串 S 的长度。
第四行输入字符串 S。
输出格式
共一行,输出所有出现位置的起始下标(下标从 0 开始计数),整数之间用空格隔开。
数据范围
1≤N≤10^5
1≤M≤10^6
输入样例:
3
aba
5
ababa
输出样例:
0 2
#include<iostream>
using namespace std;
const int N = 1e6 + 10;
char s[N],p[N];
int ne[N],n,m;
int main()
{
//从1开始读取字符串,比较方便后续处理
cin >> n >> p + 1 >> m >> s + 1;
//这是我们处理next数组的方法,注意是j + 1 参与比较
//i是从2开始,因为ne[0]、ne[1]都等于0无需处理
//举个小例子让大家看的更直观
// abcabc
// i = 2,j == 0 直接进入if判断,p[i] == b != p[j + 1] == a,ne[2] = 0
// i = 3,j == 0 进入if判断得到ne[3] = 0
// i = 4,j == 0,直接进入if判断,相等则ne[4] = 1
// 就这样依次的进行处理
for(int i = 2, j = 0; i <= n; i ++)
{
while(j && p[i] != p[j + 1]) j = ne[j];
if(p[i] == p[j + 1]) j ++;
ne[i] = j;
}
for(int i = 1, j = 0; i <= m; i ++)
{
// 只要j!=0也就是没退回到开头,并且当前这个j+1不能匹配,我们就通过ne中记录的之前的努力,将j尽量少的移动
while(j && s[i] != p[j + 1]) j = ne[j];
//如果能匹配j ++
if(s[i] == p[j + 1]) j ++;
if(j == n)
{
cout << i - n << " ";
//这里根据题目要求,继续重新开始寻找
j = ne[j];
}
}
return 0;
}
3. 时间复杂度分析
看起来是双重循环,但实际上是
O
(
n
)
O(n)
O(n)的
j++最多加m次,又因为j要大于等于0,所以j = ne[j]最多执行m次,也就是while循环最多执行m次。
有ne的定义出发,ne[j]一定小于j,所以j = ne[j]一定可以让j变小