后缀树介绍-Suffix Tree

最新推荐文章于 2024-07-27 22:42:44 发布

dreamhougf

最新推荐文章于 2024-07-27 22:42:44 发布

阅读量5.4k

点赞数

分类专栏：字符串模式匹配归档文章标签：字符串模式匹配后缀树 suffix-tree 最长回文子串最长重复船

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/dreamhougf/article/details/43059301

版权

本文介绍了后缀树（Suffix Tree）这一数据结构，用于高效地解决字符串匹配问题。后缀树能快速实现查找字符串A是否在字符串B中、计算子串重复次数、查找最长重复子串、最长公共子串以及最长回文子串等。文章还简述了后缀树的构造过程，包括暴力构造和线性时间构造，并提及其在生物学碱基配对问题中的应用。

摘要由CSDN通过智能技术生成

前面的文章中有讲解了模式匹配相关的KMP和TrieTree，他们有各自的方式去提高性能，从而也应用在不同的场景中，这一次我们讲解后缀树（SuffixTree），相信如果没有专门去看过这些知识的同学应该很少知道后缀树，那么后缀树到底是什么，他能解决什么样的问题呢？

后缀树（SuffixTree）一种数据结构，通过对一个字符串所有后缀操作构建一棵树，可以支持字符串的快速匹配查询，他对于以下几个字符串问题可以做到快速实现。

1> 查找字符串A是否在字符串B中，也就是常规的字符串查找问题。

2> 计算给定的字符串A在字符串B中重复出现的次数。也就是子串重复的次数。

3> 查找字符串A的最长重复子串。

4> 查找字符串A和字符串B的最长公共子串。不是LCS问题哦！

5> 查找字符串A的最长回文子串。

6> 其实SuffixTree最常用的地方是生物学的碱基配对问题.

那看了上述问题，我们来讲解后缀树的结构，后缀树顾名思义是要用到字符串的后缀，先来说明下什么是后缀，比如有一个字符串dream，那么他的后缀有很多个，分别是dream它本身，ream，eam，am，m，还有一个空字符串当然也是他的后缀。他的后缀集合为：dream=suffix{dream, ream, eam, am,m,空串}。我们构建一个后缀树就要利用到这些后缀来构建一压缩的trie树，也就是Compacted Trie(将trie上单个子节点的路径进行压缩即可得到)。

先看一个CompactedTrie的构建。假设我们的有字符串abc, abd, def我们首先用这些字符串构建一个Trie如下所示：

最低0.47元/天解锁文章

关注

0
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

dreamhougf CSDN认证博客专家 CSDN认证企业博客

码龄10年

45: 原创

25万+: 周排名

90万+: 总排名

7万+: 访问

: 等级

1176: 积分

21: 粉丝

21: 获赞

3: 评论

76: 收藏

私信

关注

热门文章

分类专栏

最新评论

无聊写排序之 ----第K最值(nth_element)
咘咘喜欢吃包子: 按照文章解析，这个算法的复杂度不是O(n)吧
无聊写排序之 ---- 归并排序(MergeSort) 非递归实现
木棉花ward: 你好，请问你的非递归归并排序算法中的merge()函数为什么不把临时数组倒回到原数组中呢？
后缀数组(SuffixArray) 学习笔记
K0Kong: 好文。只是证明h[i] >= h[i-1] -1 这里要修改：并且suffix(k+1)和suffix(i)的最长公共前缀是h[i-1]-1。 suffix(k) 是排在suffix(i-1)的前一名后缀，lcp是h[i-1]。 suffix(k+1)肯定排在suffix(i)前面（suffix(k+1)比suffix(k)少第一个字符），但不一定排在suffix(i)前一名。请参考：假设s=aabaaaab. 排序前suffix: aabaaaab$baaaabaa abaaaab$baaaabaa baaaab$baaaabaa aaaab$baaaabaa aaab$baaaabaa aab$baaaabaa ab$baaaabaa b$baaaabaa $baaaabaa baaaabaa aaaabaa aaabaa aabaa abaa baa aa a 排序后：$baaaabaa a aa aaaab$baaaabaa aaaabaa aaab$baaaabaa aaabaa aab$baaaabaa aabaa aabaaaab$baaaabaa ab$baaaabaa abaa abaaaab$baaaabaa b$baaaabaa baa baaaab$baaaabaa baaaabaa 数组从1开始。 SA: 0 9 17 16 4 11 5 12 6 13 1 7 14 2 8 15 3 10 height:0 0 0 1 2 5 3 4 2 3 5 1 2 4 0 1 3 6 rank:0 10 13 16 4 6 8 11 14 1 17 5 7 9 12 15 3 2 h[4] = height[rank[4]] = lcp(4, SA[rank[4] - 1]) = lcp(4, SA[3]) = lcp(aaaab$baaaabaa, aa) = 2 h[5] = height[rank[5] = lcp(5, SA[rank[5] - 1]) = lcp(5, SA[5]) = lcp(aaab$baaaabaa, aaaabaa) = 3

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。