KMP快的原因离不开nxt数组的实现,而nxt数组的原理是前缀函数的特殊性质,见本文优化2
目录
参考代码2: string从下标0开始的,nxt[0]为-1的写法:
KMP比较原理:
当选择的前缀和后缀比较出现不同时,本应结束了,
然而如果匹配串已匹配部分有相同的前缀和后缀,匹配串可以整体向后跳,接着比。
如图,在原串中找匹配串(模式串),原串中abeab都相同,最后一个位置不相同了。
nxt数组初始化原理 (前缀函数的优化):
我这里概括并通俗的解释一下:
前缀函数指的是每个位置为末尾的前缀子串中 ,该子串前缀和后缀 最大相同长度。
(如上图,上面箭头指到我们当前要比较位置且出现不相同,此时匹配串前移一部分接着比即可)
nxt数组几乎就是前缀函数,但是nxt是用来往前跳的(不相同时,模式串下一个要比的位置),而且是跳到相同前缀的下一个不同的位置,用来后续接着比较。
对于构造前缀函数,朴素做法就是蛮力法,每个位置从大到小挨个试。n个位置,每个位置n次,每个比较长度是n,所以是O(n^3)的复杂度。
OI Wiki的优化1:
此图表示 i 位置最大相同前缀长度是3了,那么i+1位置,最长也是4。
所以上界可以改为4。
我初看以为是常数优化,然而不是的。
如果前面前缀函数值小,后面遍历的次数也少了。
如果前面大,后面就算遍历多,再下一次会很小。
最糟情况的是每次都只比一次就成功,一直攒(只能一个一个攒),最后一次再遍历,所以最多比较次数就是OI Wiki说的 n-1 + n-2 == 2n-3 。 每次比是 n ,所以复杂度为O(n^2)
# 优化2:
这个优化才是重头戏
配好一次后,下一个位置可以直接接着比,如果可以直接得到 +1 的相同前缀长度。
# 如果不同:
# 先不考虑怎么找 j,而是看下这个规律。
既然这个大的前缀相同,那么 j 对应的后缀可以等价前面部分:
# 而这,就是此前 pai [ pai [i] - 1 ] 已经求出的结果
# 应用到KMP是这样的:
(当然如上文提及,仍要记着这里每个位置求的是最长前缀长度。而KMP的nxt数组存的是前跃后下一个比较的位置。)
算法时间复杂度就是O(n)了。
可以想后缀跳前缀,几次就能跳完。
极端情况全是aaaaaaa,最后有一个b。
那么也只有b这里需要前跃n次。而前面一次也不用前跃。
nxt数组初始化的实现:
1.首先要初始化KMP数组,或着说是nxt数组。这个是模式串用来向前跳的。
(这里初始化和后面匹配的方法大同小异,比较策略都是原串 下标 i 从1 到 m ,一次只比一个位置,模式串位置 j 不合适时就一直往前跳。 不为什么 )
初始化过程:
每个位置都及时更新nxt数组的值,值就是模式串下标。显而易见,上图中相同部分就是记录的相同前后缀的长度。
//本题s1是原串,s2是模式串,m,n分别是其对应长度
//本板子字符串下标从1开始,0位置作为出口,用处如下:
void init_next()
{
int j = 0;
for (int i = 2; i < n; i++)
{
while (j&&s2[i] != s2[j+1])//不相同就前跃,直到相同,或者全不同 j==0
j = nxt[j];
if (s2[i] == s2[j + 1])j++;//相同就接着往后比
nxt[i] = j;//可更新
}
}
参考代码:
2024/5/10
#include<bits/stdc++.h>
using namespace std;
const int maxn = 1e6;
string s1, s2;
int m, n;
int nxt[maxn];
void init_next()
{
int j = 0;
for (int i = 2; i < n; i++)
{
while (j&&s2[i] != s2[j+1])
j = nxt[j];
if (s2[i] == s2[j + 1])j++;
nxt[i] = j;
}
}
vector<int>ret;
void kmp()
{
int j = 0;
for (int i = 1; i < m; i++)
{
while (j && s1[i] != s2[j + 1])
j = nxt[j];
if (s1[i] == s2[j + 1])j++;
if (j == n - 1)
{
ret.emplace_back(i - (n - 2));
j = nxt[j];
}
}
}
int main()
{
cin >> s1 >> s2;
s1 = ' ' + s1;s2 = ' ' + s2;
m = s1.size(), n = s2.size();
init_next();
kmp();
for (int x : ret)
cout << x << endl;
for (int i = 1; i < s2.size(); i++)
cout << nxt[i] << " ";
return 0;
}
参考代码2: string从下标0开始的,nxt[0]为-1的写法:
次日练手
#include<bits/stdc++.h>
using namespace std;
const int maxn = 2e7+5;
//可以像kmp那样,顺便更新其他位置
string s1, s2;
int nxt[maxn];
int m, n;
void init_nxt()
{
nxt[0] = -1;
int j = 0;
for (int i = 1; i < n; i++)
{
while (j!=-1&&s2[i] != s2[j])j = nxt[j];
nxt[i+1] = j+1;//相等所以可以调到这个位置
if (j == -1 || s2[i] == s2[j])j++;
}
}
vector<int>ret;
void kmp()
{
int j = 0;
for (int i = 0; i < m; i++)
{
while (j != -1 && s1[i] != s2[j])j = nxt[j];
if(j == -1 || s1[i] == s2[j])j++;
if (j == n)
{
ret.emplace_back(i-n+2);
j = nxt[j];
}
}
}
int main()
{
cin >> s1 >> s2;
m = s1.size(), n = s2.size();
init_nxt();
kmp();
for (auto x : ret)
cout << x << endl;
for (int i = 1; i <= n; i++)
cout << nxt[i] << " ";
return 0;
}