关于哈夫曼编码压缩文件

参考Crash Course的课程,做下笔记,原视频在这里 ↓

https://www.bilibili.com/video/BV1EW411u7th?p=21

  1. 我们要对如下一张 4像素 X 4像素的 图片进行压缩,
    在这里插入图片描述
    而在磁盘中图片是一串像素值的形式存储的,每个像素的颜色由RGB确定,这样一张图片需要 48(16*3) 个字节
    在这里插入图片描述
  2. 为了能够压缩图片,我们需要减少冗余的信息或者用更紧凑的表示方法。可以发现,有很多相同的排列:白黄、黑黄、黄黄、白白,这个序列可以有这四种排列组成(当然也有其他不同的方式),我们为这四种排列生成紧凑代码,用更少的字节表示每对排列

在这里插入图片描述

  1. 我们会发现,这四对出现的频率并不相同
    在这里插入图片描述
    黄黄出现的次数最多,所以我们希望通过最紧凑的方式来表示,其次是白黄,黑黄和白白出现的次数最少,我们可以用长一点的来表示

  2. 为了实现以上的表示,我们需要构造哈夫曼树

    • 列出所有的块和频率,每轮选择两个最低的频率,将它们组成一个树。这里BY和WW频率最低,将其组成一个树,组成后的频率为2,这样就完成了一轮算法。
      在这里插入图片描述
    1. 下一轮中重复这样的操作。现在白色的两个频率最低,合并!
      在这里插入图片描述
      合并之后的情况如下
      在这里插入图片描述
    2. 第三轮同理
      在这里插入图片描述
      这样我们就完成了哈夫曼树,它是按照频率排序的,频率低的在下面,频率高的在上
  3. 完成了哈夫曼树,我们还需要生成字典,即如何访问各个节点。我们可以将所有的左子树的分支用0标示,右子树用1标示
    在这里插入图片描述
    这样我们就完成了字典
    在这里插入图片描述
    这样我们可以用0 标示YY,111标示 WW…
    经过这样的压缩后,原本的字符可以表示为如下的形式
    在这里插入图片描述
    这样原来的48字节我们用14位就能表示了!!! (48字节=48 X 8位 = 384 位)

  4. 当然,只保存14位的数据是没有意义的,我们需要将字典也保存下来才能知道表示的信息
    在这里插入图片描述
    加上字典信息后我们需要30字节的空间,仍然比48字节好很多。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值