KMP算法
KMP算法是一个字符串匹配算法,它可以将O(n^2)时间复杂度转为线性,因此可以处理一些长度很大的字符串匹配。
它降低时间复杂度的本质是将朴素算法中的回溯改为不回溯。
具体的讲解可以看看下面的b站链接
KMP算法简述
而实现线性查找的关键,则是借助最长相等前后缀,根据已经匹配的字符串来得到一些信息,从而排除一些不可能的起始点子集。
由此引入了next数组,在本文中next数组采取的是不减1做法,即next数组的含义为——模式串中以该下标结束的字符串的最长相等前后缀长度。
next数组求法
可以用类似动态规划的思想以线性时间复杂度得到next数组,可以给出递推公式如下,j指向的是当前字符串后面一个字符,即新加进来的字符,或者理解为当前字符串长度加1的尾字符串:
- next[0]=0
- next[j]=i+1,j>=1&&s[i]==s[j]
我们可以这样理解上述的迭代公式,如果新加进来的字符和前字符串中最长相等前后缀的前缀的后面一个字符相等,那么新字符串的最长相等前后缀显然等于前字符串的最长相等前后缀的长度加1
但是如果不相等呢?这个时候我们就应该找前字符串的次最长相等的前后缀,然后再判断次最长相等的前后缀,后面一个字符是否和新加进来的字符相等,如果相等的话,那么新字符串的最长相等前后缀显然等于前字符串的次最长相等前后缀的长度加一,以此类推。
根据上面的描述,显然i表示的是前字符串中需要进行匹配的前缀长度,它可能是最长相等前后缀长度,也可能是匹配失败后的次最长相等前后缀长度,等等。
但是核心思想依然是动态规划,即根据前字符串的最长相等前后缀长度来得到后面字符串的最长相等前后缀长度。
但是,我们也会提出一个新的问题,即匹配失败后,如何得到长度排在i后面的前字符串最长相等前后缀长度呢?
这个问题很好解决,若匹配失败,那么i=next[i],这个公式表示次最长相等前后缀的长度等于当前最长相等前后缀的最长相等前后缀长度。
举个栗子:
当前最长相等前后缀为,“aba”,若此时匹配失败,显然我们应该寻找长度小于它的最长相等前后缀,那么这个前缀长度显然小于”aba“,即前缀要么为”ab“,要么为”a“,后缀也应该小于”aba“中,即要么为”ba“,要么为"a",而又要满足前后缀相等,那么显然,次相等前后缀就为”a“。
发现了吗,这就等同于在”aba“中找一个最长相等前后缀了。
因此,给出实现代码如下:
int n=s.size();
vector<int> next(n);
/*i为当前字串的最长相等前后缀长度,
j指向当前串的后面一个字符,当前串为[0,0]*/
int i=0,j=1;
next[0]=0;
while(j<n){
/*如果s[i]==s[j],
则串[0,j]的最长相等前后缀长度为
[0,j-1]的最长相等前后缀长度加1*/
if(s[i]==s[j]){
next[j]=i+1;
i++;
j++;
}
else{
/*如果前缀头都不等于前缀尾,那么串[0,j]
的最长相等前后缀为0,循环判断下一个串*/
if(i==0){
next[j]=0;
j++;
}
/*i=[0,j-1]的次最长相等前后缀长度,如果还是不相等,
那么继续迭代,i指向次次最长相等前后缀,以此类推*/
else{
i=next[i-1];
}
}
}