第六周作业1——利用哈夫曼编码英文字母表

作业要求: 对教材P167中习题5.18,思考并完成问题a-d。(原书PDF下载地址:算法概论[英文原版].pdf)

习题如下:



解:

(a): 

画出这些字母的最优二叉树:(根节点值为101不是100,应该是空格的出现频率18.3%有误,若改为17.3%就正确.但我已画完图,将错就错吧...)



根据叶子节点在其父节点的左侧为0, 在右侧为1,可知这些字母的最优Huffman编码是:

/* 字母表的最优Huffman编码

e: 001
blank: 110

n: 0000
i: 0001
s: 0100
h: 0101
r: 0110
a: 1000
o: 1010
t: 1110

c: 01110
u: 01111
l: 10011
d: 11110

f: 100100
w: 100101
y: 101100
g: 100101
b: 100110
p: 100111
m: 111110

v: 1111110
k: 11111110

x: 1111111100
j: 1111111101
q: 1111111110
z: 1111111111

*/

(b): 

有问题(a)可得, (3*2+4*8+5*4+6*7+7+8+10*4)/27 5.74 ;

即每个字母的编码平均需要6位.

(c): 

结果肯定比熵(约为5.74)要大,因为在计算熵的时候允许有小数个比特,而实际上每个字符的编码长度都必需为整数.

(d): 

我不认为这就是英文文本压缩的下限.

除了字母及其出现的频率,还可以重点考虑单词的前缀,后缀,某些常见字母的组合,甚至整个单词.

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值