- 首先这里的文本是指可以转字符串的(其他文件的压缩类似)
- 本文不关注实现,实现在后续的文章会继续补充
- 细节优化会慢慢更新
哈弗曼树
即最优二叉树
带权路径长度达到最小的二叉树
一个哈弗曼树中离根节点最近的叶子 权重最大
字符串/文本统计
“ 我说切克,你说闹,呦呦切克闹,我们一起切克闹.”
字符:频度 —>编码
, : 3 —>0x01
闹 : 3 –>0x02
说 : 2 –>0x03
切克 : 2 –>0x04
呦 : 2 –>0x05
一起 : 1 –>0x06
我 : 1 –>0x07
我们 :1 –>0x08
你 : 1 –>0x09
. :0x0a
替换、压缩
按字符出现的频度作为权重 组建哈夫曼树
把字符和编码映射存入 叶子中
同时原字符串替换成
[0x07,0x03,0x04,0x01,0x09,0x03,0x02,0x01,0x05,0x05,0x04,0x02,0x01,0x08,0x06,0x04,0x02,0x0a]
存储的时候存的是二进制的数据,比存字符串要小很多。见下
let str = "我说切克,你说闹,呦呦切克闹,我们一起切克闹."
let data = str.dataUsingEncoding(NSUTF8StringEncoding)
print(data)
print(data!.length)
var bytes = [0x07,0x03,0x04,0x01,0x09,0x03,0x02,0x01,0x05,0x05,0x04,0x02,0x01,0x08,0x06,0x04,0x02,0x0a]
let data2 = NSMutableData()
for var i = 0 ; i < bytes.count ; i++
{
data2.appendBytes(&bytes[i], length: 1)
}
print(data2)
print(data2.length)
log:
<e68891e8 afb4e588 87e5858b efbc8ce4 bda0e8af b4e997b9 efbc8ce5 91a6e591 a6e58887 e5858be9 97b9efbc 8ce68891 e4bbace4 b880e8b5 b7e58887 e5858be9 97b92e>
67
<07030401 09030201 05050402 01080604 020a>
18
而压缩文件存的时候要加入一个编码映射表。
解压
先取出编码映射表(哈夫曼树存储的)
, —>0x01
闹 –>0x02
说 –>0x03
切克 –>0x04
呦 –>0x05
一起 –>0x06
我 –>0x07
我们 –>0x08
你 –>0x09
然后取出<07030401 09030201 05050402 01080604 020a>对照替换即可
还原得到
“我说切克,你说闹,呦呦切克闹,我们一起切克闹.”