一、概念
- KMP算法是求解主串(以下简称为s)和模式串(以下简称为p)匹配问题的O(n)算法。
- 其核心思想就是,当s[i]和p[j]发生不匹配现象时,i指针不需要回溯,只需j指针回溯。
- 传统的暴力匹配:当s[i]与p[j]不匹配时,i回溯到之前的起点下一个位置,j=0,重新进行匹配,如下图的solution1方式。复杂度为O(n*m),n为主串s长度,m为模式串p长度。
- KMP算法:i不回溯。过程如solution2: 当s[i]与p[j]不匹配时,保持上面不动,移动下面的模式串,使上A与下A对齐,j指向B.
KMP算法:可以实现复杂度为O(m+n)
二、KMP
KMP的模式串分为
1. 最长前缀和最长后缀为0:各元素均不相同
在比较时,实现最大的移动量
2. 最长前缀和最长后缀>0: 前后存在相同的子串
在比较时,移动距离较短(总长度-前后缀长)。下面的模式串移动到与后缀对齐,开始比较。下图:1、2、3、4前后缀相同,将下面的3移动到与2对齐再比较
考察目标字符串ptr:ababaca
这里我们要计算一个长度为m的转移函数next。
next数组的含义就是一个固定字符串的最长前缀和最长后缀相同的长度。
比如:abcjkdabc,那么这个数组的最长前缀和最长后缀相同必然是abc。
cbcbc,最长前缀和最长后缀相同是cbc。
abcbc,最长前缀和最长后缀相同是不存在的。
注意最长前缀:是说以第一个字符开始,但是不包含最后一个字符。
比如aaaa相同的最长前缀和最长后缀是aaa。
对于目标字符串ptr,ababaca,长度是7,所以next[0],next[1],next[2],next[3],next[4],next[5],next[6]分别计算的是
a,ab,aba,abab,ababa,ababac,ababaca的相同的最长前缀和最长后缀的长度。由于a,ab,aba,abab,ababa,ababac,ababaca的相同的最长前缀和最长后缀是“”,“”,“a”,“ab”,“aba”,“”,“a”,所以next数组的值是****[-1,-1,0,1,2,-1,0],这里-1表示不存在,0表示存在长度为1,2表示存在长度为3。这是为了和代码相对应。
**