后缀树其实是Trie树的改进,一棵后缀树包含了一个或多个字符串的所有后缀。
对于字符串banana,如果要用trie树来表示它所有的后缀,如下图:
然后对所有的【只有单个子节点的节点】进行合并
然后就可得到后缀树
构造一棵后缀trie树的时间和空间复杂度都是o(n^2),而构造一棵后缀树,全部树节点数不会超过2n+1个(因为一棵完全二叉树的总节点数是2n+1,n为叶子节点的个数,而对于多叉树,节点数目会小于2n+1)。同时后缀树也存在o(n)的时间复杂度的构造方法。
后缀树的定义:
一个长度为n的字符串S,它的后缀树定义为一棵满足如下条件的树:
n 从根到树叶的路径与S的后缀一一对应。即每条路径惟一代表了S的一个后缀;
n 每条边都代表一个非空的字符串;
n 所有内部节点(根节点除外)都有至少两个子节点。
由于并非所有的字符串都存在这样的树,因此S通常使用一个终止符号进行填充(通常使用$)。
后缀树的存储改进: