KMP算法解决的是在字符串(称为T)中,模式串(称为P)定位的问题:
最前面的k个字符和j之前的最后k个字符是一样的:
P[0 ~ k-1] == P[j-k ~ j-1]
该规律是KMP算法的关键,KMP算法就是利用待匹配的子串自身的这种性质来提高匹配速度。
还可以描述成:若子串的前缀和后缀集中,重复的最长子串的长度为k,则下次匹配子串的j可以移动到第k位(下表为0为第0位)。我们将这个解释定义成最大重复子串解释。
前缀集,后缀集定义比较特殊,需看例子
前缀集:表示去除最后一个字符后的前面的所有子串集合;
后缀集:指的是去除第一个字符后的后面子串组成的集合。
3 next数组
next数组定义:next[j]的值就是(也就是k)表示,当P[j] ! = T[i]时,j指针的下一步位置。
利用数学归纳法求解next数组的每一个值
- next[0] = -1;
- 当P[k] = = P[j]时, 有next[j+1] = = next[j] + 1;
- 当P[k] != P[j]时,则 k = next[k];
next[0] = -1;