Burrows-Wheeler transform
算法是非常巧妙的。首先把输入的数据则重排列,使得相同的字符,尽量地排在一起,这样方便压缩。如果只是想把相同的字符放在一起, 可以简单地对各个字符统计一下出现次数,然后放在一起。然而巧妙的地方是,它还可以根据重新排列后的字符串,算出 原始的字符串,从而解压缩。
重排列的过程如下:
把输入串的所有rotation(所谓rotation是指轮换,比如abcd有四个轮换,abcd,bcda,cdab,dabc)排序,然后依次把这些rotation 的最后一个字符串接起来成为新的串。这里要注意两个地方,一是各个字符出现的次数是否跟源串相同,二是相同的字符是否更多 地放在一起。
第一点是很容易证明,取这些rotation的任意一位串连起来,各个字符出现的次数跟源串都是相同的。
第二点很难证明,现在粗略分析一下。假设源串含有the,排序的结果应该是"he"打头的ratation排在一起 ,这样最后一个字符是"t"的字符也应该排在一起。为什么不用这些rotation的第一位串联起来呢?用第一位的话,解释起来更直观, 但是用第一位串联起来的话,无法反映射回去。
现在来讨论一下怎么反映射。反映射的算法非常巧妙,从OI到ACM都考过这道题。有O(N)的算法的,实现起来也不难,只是比较难 想到。
用banana举例,它的六个rotation排序为:
abanan
anaban
ananab
banana
nabana
nanaba