由于蒟蒻azui前段时间忙着准备省选,并在省选中闷声滚大粗,博客停更了好久。。
省选过后整个人各种颓,整天玩玩泥巴什么的。。。
前段时间学后缀数组的时候上网查相关资料,看到说后缀数组和后缀树是可以相互转化的,并且uoj上有大量通过后缀自动机建出后缀树然后dfs遍历获得后缀数组的模板,但是通过后缀数组来建后缀树的资料确实稀缺。
也许大牛们都觉得这xjbYY一下就可以写了,所以网上没找到对应的代码,那么我来补个坑吧。大牛勿喷。。
先谈谈我的理解吧。。
讲道理后缀数组和后缀树应该是完全等价的,但前两者和后缀自动机不等价,各有千秋。
后缀树的优点就在于它就是后缀trie缩边而来,在数据规模小的时候可以手动构造来观察。同时现有大量树相关的算法和数据结构,所以后缀树可以很容易地和树链剖分,倍增,虚树结合,效率很高。同时由于树的层次感强,DP的时候统计点对方便。缺点是构造比较晦涩,我至今不会Ukkonen算法,之前做后缀树都是离线sam构造的。
后缀数组的优点就是短小精悍,构造简单,空间不需要乘字符集。缺点就是缺乏层次感,做DP的时候需要结合并查集,单调栈之类的东西。
所以说,利用后缀数组来构造后缀树还是有一定互补性的。特别是在有些场合字符串特别长,用ukk或者sam的方式来构造的话内存乘上字符集大小会比较大,然后在字符集很大的时候sam的转移指针必须用map保存,时间上多个log。后缀数组构造后缀树的一个优势就是时空复杂度不受字符集影响(当然字符集超过n需要离散化那就另当别论)。
之前没有实现过真正的后缀树,有些表示可能和Ukk算法里的经典表示不太一样,意会即可。
具体算法流程比较简单。先构造出后缀数组,令sa[i]表示排名i的后缀的位置,height[i]表示lcp(sa[i],sa[i-1])。遍历sa数组的过程也正是后缀树中的叶子节点的dfs序,而height数组就是相邻两个叶子的lcp的高度,然后每次加入一个叶子后上溯至深度恰好为height处,如果不存在这样的节点,分开恰好涵盖住height这个深度的边,新增一个点使其高度恰好为height。然后新增一条边连向当前后缀的终点节点,考虑到后缀树中一条边会贡献这条边的边长那么多本质不同的子串,令这条边的边长为当前后缀的n-sa[i]-height[i]即可。
这棵树是用链式前向星存储的,所以上溯遇到的需要分开的边一定存在于边表的表首,这一点非常完美,为效率提供了保障。但是要注意因为前向星的特性,边是反着存的,建好后缀树后的dfs序是sa数组的反序。但这一般不影响解题。如果确实需要,可以改成vector存图,或者手动翻转链表中的元素,不会影响时间复杂度。
不考虑后缀数组部分,建后缀树的函数是O(n)的。虽然有两层循环,但是显然后缀树中一条边只会在新建的时候被访问一次,且只会被上溯一次,上溯到这条边上面之后这条边永远也不会再被访问到了,而根据后缀树的正确性,只有不超过2n-2条边,所以是线性的。
要注意一般后缀树要在最后添一个字符防止一个后缀成为另一个后缀的前缀。这样也许会在某些题上对答案造成影响,实际实现时可以不那么做,只需打标记看一个节点是否是一个后缀的终点即可。