后缀树与后缀数组的简介,定义,构建算法

本文介绍了后缀树的概念,它起源于1973年的position tree,主要用于处理字符串问题。文章详细阐述了后缀树的定义,包括其构建条件,以及如何处理字符串后缀的问题。后缀树可以通过线性时间的算法进行构建,例如Ukkonen的算法。此外,文章还探讨了构建后缀树的朴素算法和线性时间构造算法,以及在构建过程中涉及的扩展规则。
摘要由CSDN通过智能技术生成

————《高级数据结构》
1。后缀树的简介
后缀树在1973年被首次提出,当时叫做position tree,该算法能够在线性时间内构建后缀树.,几年之后,又有了另外一种不同的线性算法,这种新算法更加节省空间,可以说是对原来算法的大幅度优化。1995年,在此基础上提出了第一个能在线构建的后缀树,并且该算法以一种更加容易理解的方式呈现。在此之后对后缀树研究,主要是将其应用到不同场景后的变化,如对字符串的适应能力,在外部构建(即借助磁盘构建大型后缀树),压缩以及简化等。
本文主要考虑字符串所包含的字符集固定并且内存足以支撑整个构建的情况。

2、后缀树的定义
假定给定一个长度为m的字符串S(下标从1到m),S的后缀树T为一个有m个叶节点的有根树,其叶节点从1到m编号;除了根节点之外,内个内部节点至少有两个孩子;每条边上都标有S的一个非空子集;从同一个节点引出的任意两条边上标的字符串都不会以相同的字符开始;最后,也是最重要的一点,对任意一个叶节点i,从根节点到i的路径上所有边上标的字符串连接起来,就是S从位置i开始的后缀,也就是说,上述路径恰好拼出了S[i…m],
Trie树,上述后缀树相当于将S的m个后缀看做m个单词插入到字典树中,同时收缩那些只有一个孩子的内部节点。
不过,不是所有的字符串都存在这样的后缀树。例如,如果把上述字符串的最后一个字符c去掉,后缀xa就消失了,因为后缀xa恰好是xabxa的前缀,所以按照上述方式构建出来的树就没有m个叶节点了。因此,其根本问题就是有些后缀会是其他后缀的前缀。为了避免这个问题,我们统一在字符串后添加一个S中没有出现过的字符,不妨用 表 示 。 这 样 , 字 符 串 S 表示。这样,字符串S S就一定有对应的后缀树了。
为了方便表示,我们再定义如下几个概念。
路径标记:从根节点到某个节点的路径标记,就是该路径上标记的字符串顺次连接得到的字符串,这称作该节点的路径标记。
字符深度:一个节点的字符深度定义为其路径标记所包含的字符个数。
深度:一个节点的深度定义为其到根节点路径上经过的边数目。

后缀树的构建
在这一节中,我们首先介绍一种易懂但是效率较低的朴素算法,unkonen算法,其原始思想以及直接的暴力实现,然后一步步优化得到最终的线性时间的算法。

3.1 后缀树的朴素构建算法
后缀树可以看做压缩过后的Trie树,所以一种直观的朴素算法就是将字符串S 的 m 个 后 缀 看 做 m 个 单 词 插 入 T r i e 树 中 , 然 后 按 照 后 缀 树 的 压 缩 规 则 — — 每 个 内 部 节 点 至 少 有 两 个 孩 子 , 来 对 T r i e 树 中 的 内 部 节 点 压 缩 。 由 于 每 次 插 入 的 时 间 复 杂 度 与 插 入 的 串 长 度 成 正 比 , 所 以 构 建 T r i e 树 的 时 间 复 杂 度 易 知 为 O ( m 2 ) , 再 加 上 之 后 的 压 缩 操 作 , 总 的 时 间 复 杂 度 仍 为 O ( m 的 2 次 方 ) 。 3.2 后 缀 树 的 线 性 时 间 构 造 算 法 在 介 绍 线 性 时 间 构 建 算 法 之 前 , 我 们 有 必 要 证 明 我 们

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值