本文关于之前做过一个 bwt-search 算法。
在介绍 bwt-search 算法之前,先介绍本文的基础,bwt 算法。
bwt 是一个压缩算法,它比较特殊,压缩后字符串的长度没有减少,而是和原来一样长。它将字符串顺序右移/左移后,得到 n 个字符串,将它们按字典序排序后,按序取出这 n 个字符串的最后一个字符,作为压缩的结果。如,对于字符串 abcada ,将移位后得到的所有字符串按字典序增序排列如下:
aabcad
abcada
adaabc
bcadaa
cadaab
daabca
顺序取每个字符串的最后一个字符,构成字符串 L = dacaba 作为压缩结果。
顺序取每个字符串的第一个字符,构成字符串 F = aaabcd。
这个压缩算法特殊在于,某些出现频次很高的单词,会导致字符在压缩结果中汇集。
考虑一个字符串:
xxxx the xxx the xxxx the xxxx thexxxx
这个字符串中有很多个 “the” 字符串,那么在移位后得到的 n 个字符串排序后,我们可以预计,会出现下面的局势:
................
................
he..........t
he..........t
he..........t
he..........t
因为所有的字符串按字典序排列,则移动某些位后,会形成以 he 开关的字符串位置挨在一起,那么,由于 t 在 he 的前面,所以,它们都会被排到最后面去。即,在压缩结果, t 被汇聚在一起了。
由于 bwt 算法的输出 L 里面存在字符汇聚,则如果再使用其它的压缩算法(如哈夫曼算法)对 L 压缩,则会收获到比较大的压缩比。
我们先考虑如何由 L 恢复出原字符串。