Z-function/Z Algorithm的构造与应用-CSDN博客

Z-function

　　定义一个函数 $z()$ ， $z(i)$ 是指由 $s[i]$ 开始的字串，与 $s[0]$ 开始的字串可以匹配到多长。也就是说 $s[0 ... z(i)-1] = s[i ... i+z(i)-1]$ 。

了解 Z-function

–| 0 1 2 3 4 5 6 7
–+—————————
$s$ | a b a a b a a b
$z$ | 8 0 1 5 0 1 2 0

$z(0)$ ：abaabaab，长度8。
$z(1)$ ： $Ø$ ，长度0。
$z(2)$ ：a，长度1。
$z(3)$ ：abaab，长度5。

　　设计此函数的缘由，是因为进行字串匹配的时候，我们总是希望两字串的开头尽可能长得一样。至于为什么取名为z，就得问 paladin8 了。后面将提到如何运用Z function作字串匹配，现在先讲解如何构造Z function。

如何计算Z()

　　计算 $z()$ ，是从左往右算。 $z(0)$ 是特例， $z(0)$ 是整个字串的长度，所以 $z(0)$ 不用算，由 $z(1)$ 开始算。
　　计算 $z(i)$ ，是运用已经算好的 $z(j)$ ， $j<i$ 。也就是指已经算好的某一段 $s[0 ... z(j)-1] = s[j ... j+z(j)-1]$ 。首先找出哪一段 $s[j ... j+z(j)-1]$ 覆盖了 $s[i]$ ，而且 $j+z(j)-1$ 越右边越好。
　　
　　
　　

一、

如果没有任何一段s[j … j+z(j)-1]覆盖了s[i]，表示已经算好的部份都派不上用场。从s[i]与s[0]开始比对，逐字比下去。

二、

如果有一段s[j … j+z(j)-1]覆盖了s[i]，表示s[i]也会出现在s[0 … z(j)-1]之中，把i映射到对应的位置i’。紧接着再来一次，运用z(i’)，也就是指s[0 …. z(i’)-1] = s[i’ … i’+z(i’)-1]，如此又把i’映射到字串开头了。

二之一、

如果s[i … i+z(i’)-1]短少于s[j … j+z(j)-1]的右端，那就可以直接算出z(i)的答案，就是z(i’)。

二之二、

如果s[i … i+z(i’)-1]刚好贴齐s[j … j+z(j)-1]的右端，那就必须检查不确定的部分，直接从s[j+z(j)]与s[j+z(j)-i]继续比对，逐字比下去。

二之三、

如果s[i … i+z(i’)-1]凸出了s[j … j+z(j)-1]的右端，则与上一种情形相同。

时间复杂度

　　以字元两两比较的总次数，作为时间复杂度。
　　
　　j+z(j)-1这个数值会从0开始不断增加。每当字元比对成功时，j+z(j)-1就会跟着增加，下次比对的时候就会从j+z(j)继续比对。j+z(j)-1这个数值的增加次数与比对次数一样多，最多会从0增加到S，所以时间复杂度是O(S)。
　　
　　j便是原着中的L，j+z(j)-1便是原着中的R。

字串匹配

　　制做P + $ + T，也就是说，P接到T开头，中间用一个从未出现过的字元隔开。然后算z function，看看哪些z(i)刚好是P的长度，即是匹配。
　　
　　实作时，不必真的衔接T与P。先计算P的z function，再以此计算T的z function就可以了。时间复杂度为O(T+P)。

　　
　　Gusfield’s Algorithm点明了字串匹配的精髓：两个字串的「共同前缀」。Morris-Pratt Algorithm则是Gusfield’s Algorithm的另外一面，两者关系互补。

Gusfield’s Algorithm ：一个字串的每个后缀之中，与字串开头相同的最长前缀。
Morris-Pratt Algorithm：一个字串的每个前缀之中，与字串开头相同的次长后缀。

HDU4333 UVa 11022 ICPC 4759 CF 127D CF 113B CF 535D CF 432D CF 427D

原文出处：http://codeforces.com/blog/entry/3107