bwt - search 算法

本文关于之前做过一个 bwt-search 算法。

在介绍 bwt-search 算法之前,先介绍本文的基础,bwt 算法。

bwt 是一个压缩算法,它比较特殊,压缩后字符串的长度没有减少,而是和原来一样长。它将字符串顺序右移/左移后,得到 n 个字符串,将它们按字典序排序后,按序取出这 n 个字符串的最后一个字符,作为压缩的结果。如,对于字符串 abcada ,将移位后得到的所有字符串按字典序增序排列如下:

aabcad

abcada

adaabc

bcadaa

cadaab

daabca

顺序取每个字符串的最后一个字符,构成字符串 L = dacaba 作为压缩结果。

顺序取每个字符串的第一个字符,构成字符串 F = aaabcd。

这个压缩算法特殊在于,某些出现频次很高的单词,会导致字符在压缩结果中汇集。

考虑一个字符串:

xxxx the xxx the xxxx the xxxx thexxxx

这个字符串中有很多个 “the” 字符串,那么在移位后得到的 n 个字符串排序后,我们可以预计,会出现下面的局势:


................

................

he..........t

he..........t

he..........t

he..........t

因为所有的字符串按字典序排列,则移动某些位后,会形成以 he 开关的字符串位置挨在一起,那么,由于 t 在 he 的前面,所以,它们都会被排到最后面去。即,在压缩结果, t 被汇聚在一起了。

由于 bwt 算法的输出 L 里面存在字符汇聚,则如果再使用其它的压缩算法(如哈夫曼算法)对 L 压缩,则会收获到比较大的压缩比。

我们先考虑如何由 L 恢复出原字符串。 





评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值