参考1:http://blog.csdn.net/zhongjling/article/details/8887890
参考2:http://blog.csdn.net/adrian169/article/details/8932697
优化:http://blog.csdn.net/joylnwang/article/details/6778316
设待匹配字符串为:
s = s1s2…sn
模式字符串为:
p = p1p2…pm
KMP算法的思想在于当匹配到sj != pi时,由于p的前i-1个字符已经匹配过了,即已经有
p1…pi-1 = sj-(i-1)…sj-1
我们可以利用这些信息来确定应该从哪里开始(而不是p的第一个字符p1)重新匹配,从而尽量减少匹配的次数。
那么,怎么从哪里开始重新匹配呢?这时就需要用到next函数,这是KMP算法的关键,实际上就是在拿p去跟s匹配时,先让p自己跟自己进行匹配,以此来确定当sj != pi时,应该回退到p的第几个字符来重新匹配。
next(i) = k,i = 1,...,m,k = 0,...,i-1,表示pi与待比较的字符sj不相等时,应该把p回退到pk,让pk与sj进行比较。
有了next函数后,字符串的匹配过程可描述如下(其中s[j]=sj,p[i]=pi):
j = 1, i = 1;
while(j <= n && i <= m):
if(i == 0 || s[j] == p[i]):
i++;
j++;
else:
i = next(i);
if(i == m):
匹配成功
else:
匹配失败
现在的问题是,next函数怎么求?
求next函数的过程其实也是一个字符串匹配过程,是p自己跟自己匹配,过程描述如下(其中p[i-1]=pi-1,p[k]=pk):
next(1) = 0;
for i = 2 to m:
k = next(i-1);
while(true):
if(k == 0):
next(i) = 1; break;
if(p[i-1] = p[k]):
next(i) = k + 1; break;
else:
k = next(k);
至此,kmp算法就完成了。
可是,如果再想多一步,当匹配到sj != pi时,会回退到pnext(i),然后比较sj 和pnext(i),由于我们已经知道sj != pi,那么如果pi=pnext(i),则必能推出sj !=pnext(i),这样就不需要比较sj 和pnext(i)了,所以,就有了kmp的优化算法(开头的链接),其实质就是在求出next函数后,把pi和pnext(i)再做一次比较,从而得到一个新的next函数。