论这曾经那么烧心的KMP。。。
其实我看它的基本思想也看了挺久时间,其实,也就那么回事,只是说可能自己的思维和简单的总结性语言跟代码有点不一样。
两个字符串,一个主串a,一个模式串b。将模式串与主串相匹配,如果有匹配的部分,就返回匹配成功的位置。
传统的暴力方法是:从a[0]开始匹配,匹配不成功,再依次从a[1],a[2]...a[i]开始匹配,这样算法的时间复杂度是O(nm),显然是很容易超时的。所以有了KMP算法。
KMP能够在每次匹配不成功以后使模式串移动最大的距离,从而减少了匹配次数。比如说:
abcabsbdbc
abcabc
在模式串的c处匹配不成功的时候,可以将模式串向右移动3的距离,像这样:
abcabsbdbc
abcabc
这样就增大的每次模式串向右移动的距离。所以呢,这就需要计算模式串中从开始到每一个位置的最大公共前后缀长度,并把这个长度保存在next数组中。
有一点要进行说明,就是字符串数组是从b[0]开始计算的,而next[]数组是从next[0]开始的,next[i]表示从b[0]到b[next[i]]的最长公共前后缀的长度。
下面就说怎么样计算一个字符串的next数组的值:
可以通过继承的思想来计算(在我看来有点像动态规划),当计算next[i+1]的时候,要先看next[i]的值。然后将b[i]与b[next[i]]的字符相比较,如果相等,next[i+1]就等于next[i]+1。
比如说:
b 0 1 2 3 4 5
a b c a b c
next 0 1 2 3 4 5
0 0 0 1 2 **--->3
到b[5]==c的时候,就来看next[4]=2,所以就拿b[5]和b[next[4]]即b[2]来比较,比较结果为相等,所以next[5]=next[4]+1=3。
那么问题来了,通过继承这种方法来算,如果b[i+1]与b[next[i]]相等的话自然好说,但是要是二者不相等该怎么办呢?就在这里我看了好久,不过实际上只要举个实际例子就好理解多了。
看了很多博客的解释是这样的,要去比较b[i+1]和b[next[next[i]-1]]相比较,这样看当然不好理解,那就来看一个例子。
b 0 1 2 3 4 5 6 7 8 9 10 11
a b t a b c a b t a b t
next 0 1 2 3 4 5 6 7 8 9 10 11
0 0 0 1 2 0 1 2 3 4 5
当计算next[11]的时候,显然b[next[10]]=b[5]=c不等于t,这时候就不要管b[11]之前最大公共前后缀为5 的那个长度了,而是要讨论他这个公共前后缀(即abtab)的最大公共前后缀的长度了,这样就是放弃了较长的公共前后缀,寻找较短的公共前后缀。于是,拿b[i+1]与b[next[next[i]-1]]相比较,如果相等,b[i+1]就等于next[next[i]-1]+1。那么反应到上面的例子里就是,拿b[11]与b[next[next[10]-1]]也就是b[11]与b[2]相比较,相等,b[11]就等于2+1等于3。
这样呢,计算完next数组了,每次匹配不成功的时候,将模式串向右移动“已经匹配的字符串长度i减去next[i-1]”的距离。
还是举这个例子:
0 1 2 3 4 5 6 7 8 9
a a b c a b s b d b c
b a b c a b c
next 0 0 0 1 2 0
到了a[5]和b[5]的时候匹配失败,然后模式串向右移动5-nextp[4]=5-2=3的距离。