lz初探

因为没有后续做huffman.

所以enwik8 用了7s压到49%

lz的原理很简单 就是当当前位置的字符串于历史中的某个字符串相同的时候, 引用(ref)历史的字符串(也就是记录偏移和长度),如果没有就直接保存byte.

我用的搜索方法是前3个byte做hash(准确的说是17bit), 然后用一张jmptable,把他们链接起来.

jmptable是一个[4096*16]的数组 4096是12bit, 16是4bit,一共是2个byte.

比如一个字符串"banana-banana" 其中一个链表就把所有的ana串起来, 另一把nan串起来, 还有把banana整个串起来的等等...

用来以后查找最相似的字符串用.

jmptable的必要性在于不需要频繁的new-delete. 实际上利用率是很低的.  如果很珍惜内存的话(或者不想12bit偏移4bit长度的话). 完全可以不用(或者改改).

最终得到一串byte和ref的混合体 比如 "banana-banana" ==> ban[-2,3]-[-7,6]

我这里用[]把它们两个分开表示, 实际程序中,可以用一个byte表示后续8个节点的属性.

当然,如果后续使用huffman就不用这个了. huffman自己就可以区分不同node的属性.

相比huffman 更推荐算术编码,不过这里不打算涉及,要问为什么的话 我跟你们说 因为我不懂啊   (括弧笑).

总的来说 lz的理论还是很KISS的.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值