Z-function
定义一个函数 z() z ( ) , z(i) z ( i ) 是指由 s[i] s [ i ] 开始的字串,与 s[0] s [ 0 ] 开始的字串可以匹配到多长。也就是说 s[0...z(i)−1]=s[i...i+z(i)−1] s [ 0 . . . z ( i ) − 1 ] = s [ i . . . i + z ( i ) − 1 ] 。
了解 Z-function
–| 0 1 2 3 4 5 6 7
–+—————————
s
s
| a b a a b a a b
| 8 0 1 5 0 1 2 0
z(0)
z
(
0
)
:abaabaab,长度8。
z(1)
z
(
1
)
:
Ø
Ø
,长度0。
:a,长度1。
z(3)
z
(
3
)
:abaab,长度5。
设计此函数的缘由,是因为进行字串匹配的时候,我们总是希望两字串的开头尽可能长得一样。至于为什么取名为z,就得问 paladin8 了。后面将提到如何运用Z function作字串匹配,现在先讲解如何构造Z function。
如何计算Z()
计算
z()
z
(
)
,是从左往右算。
z(0)
z
(
0
)
是特例,
z(0)
z
(
0
)
是整个字串的长度,所以
z(0)
z
(
0
)
不用算,由
z(1)
z
(
1
)
开始算。
计算
z(i)
z
(
i
)
,是运用已经算好的
z(j)
z
(
j
)
,
j<i
j
<
i
。也就是指已经算好的某一段
s[0...z(j)−1]=s[j...j+z(j)−1]
s
[
0
.
.
.
z
(
j
)
−
1
]
=
s
[
j
.
.
.
j
+
z
(
j
)
−
1
]
。首先找出哪一段
s[j...j+z(j)−1]
s
[
j
.
.
.
j
+
z
(
j
)
−
1
]
覆盖了
s[i]
s
[
i
]
,而且
j+z(j)−1
j
+
z
(
j
)
−
1
越右边越好。
一、
如果没有任何一段s[j … j+z(j)-1]覆盖了s[i],表示已经算好的部份都派不上用场。从s[i]与s[0]开始比对,逐字比下去。
二、
如果有一段s[j … j+z(j)-1]覆盖了s[i],表示s[i]也会出现在s[0 … z(j)-1]之中,把i映射到对应的位置i’。紧接着再来一次,运用z(i’),也就是指s[0 …. z(i’)-1] = s[i’ … i’+z(i’)-1],如此又把i’映射到字串开头了。
二之一、
如果s[i … i+z(i’)-1]短少于s[j … j+z(j)-1]的右端,那就可以直接算出z(i)的答案,就是z(i’)。
二之二、
如果s[i … i+z(i’)-1]刚好贴齐s[j … j+z(j)-1]的右端,那就必须检查不确定的部分,直接从s[j+z(j)]与s[j+z(j)-i]继续比对,逐字比下去。
二之三、
如果s[i … i+z(i’)-1]凸出了s[j … j+z(j)-1]的右端,则与上一种情形相同。
时间复杂度
以字元两两比较的总次数,作为时间复杂度。
j+z(j)-1这个数值会从0开始不断增加。每当字元比对成功时,j+z(j)-1就会跟着增加,下次比对的时候就会从j+z(j)继续比对。j+z(j)-1这个数值的增加次数与比对次数一样多,最多会从0增加到S,所以时间复杂度是O(S)。
j便是原着中的L,j+z(j)-1便是原着中的R。
字串匹配
制做P + $ + T,也就是说,P接到T开头,中间用一个从未出现过的字元隔开。然后算z function,看看哪些z(i)刚好是P的长度,即是匹配。
实作时,不必真的衔接T与P。先计算P的z function,再以此计算T的z function就可以了。时间复杂度为O(T+P)。
Gusfield’s Algorithm点明了字串匹配的精髓:两个字串的「共同前缀」。Morris-Pratt Algorithm则是Gusfield’s Algorithm的另外一面,两者关系互补。
Gusfield’s Algorithm :一个字串的每个后缀之中,与字串开头相同的最长前缀。
Morris-Pratt Algorithm:一个字串的每个前缀之中,与字串开头相同的次长后缀。
HDU4333 UVa 11022 ICPC 4759 CF 127D CF 113B CF 535D CF 432D CF 427D