字符串匹配之后缀树

引言

        试想有这样一个问题,有一个长度为N的字符串A(N值很大),还有一个模式串B,B的长度为M(N/M很大,说明B只是一个小片段),此时需要判断B是否是A的字串。如果我们使用KMP算法的话,那么复杂度为O(N),对A串进行K次模式匹配的话就是KO(N),此时为了降低复杂度,我们可以考虑预处理长字符串A,是的,如果我们预先处理好A的后缀树,那么搜索子串的复杂度就降为O(M),进行K次匹配为KO(M),和原来相比,效率大大提高。那么预处理字符串A的复杂度为多少呢?使用Ukkonen的算法,它的时间和空间复杂度都为O(N),这就像是做了一件一劳永逸的事情一样,一次预处理,多次使用。或许你已经猜到了,我描述的问题就是DNA序列的匹配。

后缀树(Suffix Tree)

一个长度为n的字符串S,它的后缀树是一棵满足以下条件的树:
  1. 每条边都代表一个非空字符串;
  2. 所有的内部结点(根节点除外)都至少有2个子节点(数据压缩
  3. 有n个叶子节点,且从根到叶子的路径表示了一个唯一的后缀(前提是字符串s的最后一位字符时字典中唯一存在的,显而易见S的不同后缀有n个)。
或许看定义不容易理解,那我们来举个栗子。我们从suffix trie开始讲。suffix trie 是一棵列出字符串A所有后缀的树。比如字符串A=abaaba$

其实suffix trie和suffix tree仅仅差一步之遥。从图中我们可以看到每一条边仅表示一个字符,这样列出所有后缀需要的节点数为(1+2+...+n),空间复杂度为O(N2)。这样对于长字符串(比如基因序列),我们就不可忍了。仔细观察后缀字典树的结构,我们会发现很多路径都没有分支了,既然没有分支,那么我们就可以把它们集合在一起(数据压缩),这样每条路径表示的就不是一个字符了,而是一个字符序列,可以用字符串中的索引值表示。


参考文献




  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值