回忆下之前是怎么反转BWT的,存第一列和最后一列,然后O(N)就可以用迭代的方式找到。
现在,考虑如何利用学过的知识加速这一过程。可以对BWT建一颗Wavelet Tree,由于第一列和最后一列,字母相对顺序相同,所以左边的rank等于右边的rank。如何知道一个字母的个数?存或者高阶操作?
上图为具体过程,可知字母个数是预存的。其中rank由于要找到对应节点,所以是log复杂度。但预存rank其实也不复杂,甚至会降低复杂度。。
现在考虑如何做索引(indexing),即找到子串位置(终于来了)
FM Index,2000年发表的论文
先定义full text index:返回所有匹配,不是第一个。kmp可以高效做这个?what,我怎么做的是简单版本。