BMP压缩算法

在全文检索中通常要对索引进行压缩存储,在压缩之前如果对文本进行一定的可逆变换能够使之更易压缩,BWT就是这样一种变换.
    通过一个例子来介绍BWT,假设一段待转换的文本为:ababc, 则BWT的过程如下:

 

在T后插入结束符#得到新的文本串T#,循环左移,每次一位,得到一个|T#|行的矩阵,按首字母排序得到M
  F = first column of M

  L = last column of M
  BMT使用L来代表T,这样做的原因是L通常比T更容易压缩(具有很多连续的相同元素),那么怎么通过L恢复出T呢?
注意下面的性质:
    1、L的第一个元素是T中的最后一个元素(这里使用了哨兵元素#,#比26个字母都小。这样就不用记录M矩阵中哪一行和原始字符串相同,可直接取第一行最后一个字符即是原字符串的最后一个字符)。
    2、对于M中的每一行(第一行除外)第一个元素都是最后一个元素的下一个元素(循环左移的结果),也就是说 也就是说,对于文本块而言,同一行中F是L的下一个元素,L是F的前一个元素。
    利用这两个性质以上面的例子说明怎么恢复T:
c是最后一个元素,然后找c的前一个元素,因为M中仅有最后一行是以c开头的,则这一行的b是c的前一个元素,
再找b的前一个元素,在M中找以b开头的元素,有两行(4、5),到底是哪一行呢?只需看刚才以c开头的那一行之前,在L中出现了几个b,这里出现了一个,
所以应该看第5行,也就是b之前是a。继续找a的前一个元素。。。。。
 
    显然不能整个存储M,那们上面的过程如何在实际中运用,答案是建立 一个L-M Mapping(LF)的辅助向量
LF[i]=C[L[i]]+ri 
其中 C[c]是字符c在F中的zeroth occurrence位置即首位置,ri是c在L[1,i)中c的出现次数。即c在i位置之前出现过的次数
所以使用BWT,我们最后得到的是L和LF,回复T的算法为:
 
For each i = u-1, …, 1 do:
      s = LF[s] (threading backwards)
     T[i] = L[s] (read off the next letter back)

 


补充:


BWT 是一种以数据块为操作对象的可逆的数据变换方法, 其核心思想是对字符串轮转后得到的字符矩阵进行排序和变换。它本身不会减少数据量, 但是变换后的数据更易于压缩, 所以BWT 是对数据进行压缩前的预处理, 下面以实例说明BWT 的基本原理

Burrows-Wheeler transform

算法是非常巧妙的。首先把输入的数据则重排列,使得相同的字符,尽量地排在一起,这样方便压缩。如果只是想把相同的字符放在一起, 可以简单地对各个字符统计一下出现次数,然后放在一起。然而巧妙的地方是,它还可以根据重新排列后的字符串,算出 原始的字符串,从而解压缩。

重排列的过程如下:

把输入串的所有rotation(所谓rotation是指轮换,比如abcd有四个轮换,abcd,bcda,cdab,dabc)排序,然后依次把这些rotation 的最后一个字符串接起来成为新的串。这里要注意两个地方,一是各个字符出现的次数是否跟源串相同,二是相同的字符是否更多 地放在一起。

第一点是很容易证明,取这些rotation的任意一位串连起来,各个字符出现的次数跟源串都是相同的。

第二点很难证明,现在粗略分析一下。假设源串含有the,排序的结果应该是"he"打头的ratation排在一起 ,这样最后一个字符是"t"的字符也应该排在一起。为什么不用这些rotation的第一位串联起来呢?用第一位的话,解释起来更直观, 但是用第一位串联起来的话,无法反映射回去。

现在来讨论一下怎么反映射。反映射的算法非常巧妙,从OI到ACM都考过这道题。有O(N)的算法的,实现起来也不难,只是比较难 想到。

用banana举例,它的六个rotation排序为:

abanan

anaban

ananab

banana

nabana

nanaba

则转换后的结果为nnbaaa,因为是有序的,我们可以反推出第一列应该为aaabnn,从而可以知道有下列六对相邻关系 na,na,ba,ab,an,an。 这些相邻关系里最小的一对应该是ab,把这六组相邻关系排序一下,为ab,an,an,ba,na,na。

从而知道六个rotation的第二列分别为b,n,n,a,a,a。

如果不是这样的话,则它们不应该这样排列,这其实是反证法。

从而可以得出另一组相邻关系,nab,nan,ban,aba,ana,ana,继续上面的过程,可以得出长度为四的相邻关系,一步步递推, 最终得出原始的所有的rotation。但是怎么知道哪个rotation是源串呢?只要在源串的结束处加一个特殊字符,然后再求rotation, 最终结束符放在最后的rotation就是源串了。 上面的实现是很低效的,是O(n^2)的,不过上面的过程已经说明这个算法可以用了。而且一般来说 ,都是分块压缩的,n不会很大,平方的算法也够了。

下面描述效率为O(n)的实现方法:

从以上排序结果中,除了可以得到L[i]是F[i]的前缀外,还可以得到一个重要的性质:L中相同字母出现的顺序和F中相同字母 出现顺序相同。在已知原字符串最后一个字符是L[I]的情况下,要还原原字符串,关键是寻找字符L[I]的前一个字符在数组L中的 位置。

构造辅助数组,K[c]表示字符c在F中出现的次数,M[c]表示字符c在F中的首要位置,C[i]表示L[i]字符在i位置之前出现过车次数。由此 L[i]前一个字符在数组L中的位置可由C[i] + M[L[i]]推出。本实例中I=4,则依次推出L[4,1,5,2,6,3]="ANANAB",正好是原字符串的反序。 逆变换的时间复杂度和空间复杂度均为O(n)。


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值