后缀树(SuffixTree)的Ukkonen线性时间构造方法

最新推荐文章于 2024-07-15 09:03:01 发布

dreamhougf

最新推荐文章于 2024-07-15 09:03:01 发布

阅读量1.7k

点赞数

分类专栏：字符串模式匹配归档文章标签： Ukkonen 后缀树线性时间构造后缀树

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/dreamhougf/article/details/43195967

版权

本文详细介绍了使用Ukkonen算法在线性时间内构造后缀树的过程，通过实例展示了如何处理字符串中的字符，如何利用活动点（active point）和剩余后缀数（remainder）的概念优化构建步骤，确保了时间复杂度为O(n)。

摘要由CSDN通过智能技术生成

前面blog讲了后缀树SuffixTree相关的介绍，还有粗暴的平方时间构造法，今天我们来看下后缀树在Ukkonen优化下的线性时间构造方式。

本篇博客原文出自地址：http://www.cnblogs.com/gaochundong/p/suffix_tree.html 在此基础上做了小幅度的改动，特此说明。

Suffix Tree 与 Trie 的不同在于，边（Edge）不再只代表单个字符，而是通过一对整数 [from, to] 来表示。其中 from 和 to 所指向的是 Text 中的位置，这样每个边可以表示任意的长度，而且仅需两个指针，耗费 O(1) 的空间。

首先，我们从一个最简单的字符串 Text = "abc" 开始实践构建后缀树，"abc" 中没有重复字符，使得构建过程更简单些。构建过程的步骤是：从左到右，对逐个字符进行操作。

abc

第 1 个字符是 "a"，创建一条边从根节点（root）到叶节点，以 [0, #] 作为标签代表其在 Text 中的位置从 0 开始。使用 "#" 表示末尾，可以认为 "#" 在 "a" 的右侧，位置从 0 开始，则当前位置 "#" 在 1 位。

其代表的后缀意义如下。

第 1 个字符 "a" 处理完毕，开始处理第 2 个字符 "b"。涉及的操作包括：

扩展已经存在的边 "a" 至 "ab"；
插入一条新边以表示 "b"；

其代表的后缀意义如下。

这里，我们观察到了两点：

"ab" 边的表示 [0, #] 与之前是相同的，当 "#" 位置由 1 挪至 2 时，[0, #] 所代表的意义自动地发生了改变。
每条边的空间复杂度为 O(1)，即只消耗两个指针，而与边所代表的字符数量无关；

接着再处理第 3 个字符 "c"，重复同样的操作，"#" 位置向后挪至第 3 位：

其代表的后缀意义如下。

此时，我们观察到：

经过上面的步骤后，我们得到了一棵正确的后缀树；
操作步骤的数量与 Text 中的字符的数量一样多；
每个步骤的工作量是 O(1)，因为已存在的边都是依据 "#" 的挪动而自动更改的，仅需为最后一个字符添加一条新边，所以时间复杂度为 O(1)。则，对于一个长度为 n 的 Text，共需要 O(n) 的时间构建后缀树。

当然，我们进展的这么顺利，完全是因为所操作的字符串 Text = "abc" 太简单，没有任何重复的字符。那么现在我们来处理一个更复杂一些的字符串 Tex

最低0.47元/天解锁文章

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

dreamhougf CSDN认证博客专家 CSDN认证企业博客

码龄10年

45: 原创

25万+: 周排名

90万+: 总排名

7万+: 访问

: 等级

1176: 积分

21: 粉丝

21: 获赞

3: 评论

76: 收藏

私信

关注

热门文章

分类专栏

最新评论

无聊写排序之 ----第K最值(nth_element)
咘咘喜欢吃包子: 按照文章解析，这个算法的复杂度不是O(n)吧
无聊写排序之 ---- 归并排序(MergeSort) 非递归实现
木棉花ward: 你好，请问你的非递归归并排序算法中的merge()函数为什么不把临时数组倒回到原数组中呢？
后缀数组(SuffixArray) 学习笔记
K0Kong: 好文。只是证明h[i] >= h[i-1] -1 这里要修改：并且suffix(k+1)和suffix(i)的最长公共前缀是h[i-1]-1。 suffix(k) 是排在suffix(i-1)的前一名后缀，lcp是h[i-1]。 suffix(k+1)肯定排在suffix(i)前面（suffix(k+1)比suffix(k)少第一个字符），但不一定排在suffix(i)前一名。请参考：假设s=aabaaaab. 排序前suffix: aabaaaab$baaaabaa abaaaab$baaaabaa baaaab$baaaabaa aaaab$baaaabaa aaab$baaaabaa aab$baaaabaa ab$baaaabaa b$baaaabaa $baaaabaa baaaabaa aaaabaa aaabaa aabaa abaa baa aa a 排序后：$baaaabaa a aa aaaab$baaaabaa aaaabaa aaab$baaaabaa aaabaa aab$baaaabaa aabaa aabaaaab$baaaabaa ab$baaaabaa abaa abaaaab$baaaabaa b$baaaabaa baa baaaab$baaaabaa baaaabaa 数组从1开始。 SA: 0 9 17 16 4 11 5 12 6 13 1 7 14 2 8 15 3 10 height:0 0 0 1 2 5 3 4 2 3 5 1 2 4 0 1 3 6 rank:0 10 13 16 4 6 8 11 14 1 17 5 7 9 12 15 3 2 h[4] = height[rank[4]] = lcp(4, SA[rank[4] - 1]) = lcp(4, SA[3]) = lcp(aaaab$baaaabaa, aa) = 2 h[5] = height[rank[5] = lcp(5, SA[rank[5] - 1]) = lcp(5, SA[5]) = lcp(aaab$baaaabaa, aaaabaa) = 3

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。