第六周作业1-利用哈夫曼编码字母表

1. 哈夫曼编码。对教材P167中习题5.18,思考并完成问题a-d。

(下表给出了英文字母(包括用于分割单词的空格)在某文集中的出现频率。

空格      18.3%    |   r        4.8%    |  y       1.6%

   e         10.2%   |   d        3.5%   |  p        1.6%

   t            7.7%   |   l         3.4%   |  b        1.3%

   a           6.8%   |   c        2.6%   |  v        0.9%

   o           5.9%   |   u        2.4%   |  k        0.6%

   i            5.8%   |   m        2.1%   |  j        0.2%

   n           5.5%   |   w        1.9%   |  x        0.2%

   s           5.1%   |   f          1.8%   |  q        0.1%

   h           4.9%   |   g         1.7%   |  z        0.1%

(a)这些字母的最优Huffman编码是什么?

(b)每个字母的编码平均需要多少位?

(c)假设我们对以上的频率表计算其熵H=        .您认为该值会比以上的计算结果大还是小?为什么?

(d)您是否认为这就是英文文本压缩的下线?除了字母及其出现频率,还有哪些英文本身的特征需要在文本压缩中被重点考虑?




字母最优编码为

a:1000

b:100101

c:01110

d:11110

e:001

f:100100

g:100101

h:0101

j:1111111101

k:11111110

l:10011

m:111110

n:0000

o:1010

p:100111

q:1111111110

r:0110

s:0100

t:1110

u:01111

v:1111110

w:100101

x:1111111101

y:101100

z:1111111111


B

字母编码由计算得需要六位;

C


结果比熵要大(约为5.7),因为在计算熵的时候允许有小数个比特,而实际上每个字符的编码长度都必需为整数.


D

我不认为;

除了字母及其出现的频率,还可以重点考虑某些常见字母的组合。单词的前缀,后缀,等等.


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值