作业要求: 对教材P167中习题5.18,思考并完成问题a-d。(原书PDF下载地址:算法概论[英文原版].pdf)
习题如下:
解:
(a):
画出这些字母的最优二叉树:(根节点值为101不是100,应该是空格的出现频率18.3%有误,若改为17.3%就正确.但我已画完图,将错就错吧...)
根据叶子节点在其父节点的左侧为0, 在右侧为1,可知这些字母的最优Huffman编码是:
/* 字母表的最优Huffman编码
e: 001
blank: 110
n: 0000
i: 0001
s: 0100
h: 0101
r: 0110
a: 1000
o: 1010
t: 1110
c: 01110
u: 01111
l: 10011
d: 11110
f: 100100
w: 100101
y: 101100
g: 100101
b: 100110
p: 100111
m: 111110
v: 1111110
k: 11111110
x: 1111111100
j: 1111111101
q: 1111111110
z: 1111111111
*/
(b):
有问题(a)可得, (3*2+4*8+5*4+6*7+7+8+10*4)/27≈ 5.74 ;
即每个字母的编码平均需要6位.
(c):
结果肯定比熵(约为5.74)要大,因为在计算熵的时候允许有小数个比特,而实际上每个字符的编码长度都必需为整数.
(d):
我不认为这就是英文文本压缩的下限.
除了字母及其出现的频率,还可以重点考虑单词的前缀,后缀,某些常见字母的组合,甚至整个单词.