图解后缀树，翻译了3个小时，你还不懂的话，找我

最新推荐文章于 2024-03-17 09:44:00 发布

天为我蓝

最新推荐文章于 2024-03-17 09:44:00 发布

阅读量109

点赞数

原文链接：http://www.cnblogs.com/ibaiyang/archive/2013/01/06/2848167.html

版权

看过非常多的不靠谱suffix tree介绍后，本文是我在网上发现至今最好的一篇，通过三个规则讲述了整棵后缀树的构建过程，图形结合，非常容易理解，并且本文尊重原作者Ukkonen的论文术语，清楚的讲解了出现在suffix tree中的每一个概念，花时3个小时翻译之，共勉，部分有修改和抛弃。

正文如下：

接下来我将通过一个简单的字符串（不包含重复的字符）来试着分析Ukkonen算法，接着来讲述完整的算法框架。

首先，一点简单的事前描述

1. 我们构建的是一个简单的类似搜索字典类（search trie）结构，所以存在一个根节点（root node)。树的边（edges)指向一个新的节点，直到叶节点。

2. 但是，不同于搜索字典类（search trie)，边标签（edge label)不是单个字符，相反，每一个边被标记为一对整数[from, to]。这一对整数是输入字符串的索引(index）。这样，每一个边记录了任意长度的子字符（substring)，但是只需要O(1)空间复杂度（一对整数索引）。

基本约定

下面我将用一个没有重复字符的字符串来说明如何创建一颗后缀树(suffix tree):

abc

本算法将从字符串的左边向右边一步一步的执行。每一步处理输入字符串的一个字符，并且每一步抑或涉及不止一种的操作，但是所有的操作数和是O(n)时间复杂度的。

好，我们现在将字符串左边的a插入到后缀树，并且将此边标记为[0, #]，它的意思是此边代表了从索引0开始，在#索引结束的子字符串（我使用符号#表示当前结束索引，现在的值是1，恰好在a位置后面）。

所以，我们有初始化后的后缀树：

其意思是：

现在我们处理索引2，字符b。我们每步的目的是将所有后缀(suffixes）的结束索引更新当前的索引。我们可以这样做：

1. 拓展存在的a边，使其成为ab;

2. 为b插入一条新边。

然后变成这样：

其意思是：

我们观察到了二点：

表示ab的边同我们初始化的后缀树：[0, #]。它意味着将会自动改变，我们仅仅更新#，使其成为2即可；
每一步只需要O(1)的空间复杂度，因为我们只记录了一对整数索引而已。

接下来，我们继续自增#索引，现在我们需要插入字符c了。我们将c插入到后缀树中的每一条边，然后在为后缀c插入一条新边。

它们像下面：

其意思是：

我们注意到：

在每一步后，恰好都是一颗正确的后缀树;
总共需要字符串长度的数量的操作;
所有的操作都是O(1)。

第一次拓展：简单的重复字符串

上面的算法工作的非常正确，接下来我们来看看更加复杂的字符串：

abcabxabcd

步骤1至3：正如之前的例子：

转载于:https://www.cnblogs.com/ibaiyang/archive/2013/01/06/2848167.html

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
图解后缀树，翻译了3个小时，你还不懂的话，找我

看过非常多的不靠谱suffix tree介绍后，本文是我在网上发现至今最好的一篇，通过三个规则讲述了整棵后缀树的构建过程，图形结合，非常容易理解，并且本文尊重原作者Ukkonen的论文术语，清楚的讲解了出现在suffix tree中的每一个概念，花时3个小时翻译之，共勉，部分有修改和抛弃。正文如下：接下来我将通过一个简单的字符串（不包含重复的字符）来试着分析Ukkonen算法，接着来讲述完...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。