KMP算法是一种改进的字符串匹配算法
KMP算法的核心是利用匹配失败后的信息,尽量减少模式串与主串的匹配次数以达到快速匹配的目的。具体实现就是通过一个next()函数实现,函数本身包含了模式串的局部匹配信息。KMP算法的时间复杂度O(m+n)
如上图所示,初始化前缀为0,后缀为1,next第一位0(i = 1, j = 0, next[1] = 0),然后像后依次求next数组。next的第i位等于j。
当 前缀 为T[1 ~ 3]aba时,后缀 为T[3 ~ 5]aba,这三个相同,当T[6]失配,就等同于T[3 ~ 5]与主串成功配对,既然T[1 ~3]=T[3 ~ 5],所以T[1 ~ 3]没必要再和S配对一次,所以next[6] = 4
next[ i ]就是记录下若T[ i ]失配时返回的位置,(next[ i ] = j )
但是如果遇到下面这种情况,上面求的next数组效率就不高了,所以要改变求一下next数组的方法。
解决了next数组,KMP算法就很简单了
设置两个位置变量 i 和 j,i 记录主串位置,j 记录子串位置,若子串与主串相等,位置向后移,若不等,则找到next数组对应子串的第 j 位,这记录着若第 j 位失配 位置 j要回到的地方(即 j = next[ j ])。
例如:
主串S:ABAKABB
子串T:ABAS
next :0112
T[4] != S[4],第4位失配,找到next第四位为2,则用T[2]和S[4]对比。
显然T[ 3 ] = T [ 1 ], T[ 3 ] = S [ 3 ],所以T[ 1 ]和 S [ 3 ]没必要在对比,因为肯定是相等的,next数组就很好的减少了这种不必要的对比,提高了效率。
完整程序
#include"stdio.h"
#include"string.h"
//获取next数组
void get_next(char T[], int next[])
{
int i = 1;//后缀
int j = 0;//前缀
next[1] = 0;
while(i <= T[0])
{
//如果后缀等于前缀或者前缀为0,前后缀分别加一
if