文章目录
一、概述
1、算法简述
- 众所周知,计算机中数据的存储和传输的最小单位是字节(byte),一个ASCII 码占用 1 个字节, 每个字节为 8 个比特位(Bit);例如,字符 ‘e’ 的二进制表示为 01100101;
- 进程间通信传输字节流的过程中,为了节省带宽,往往会对传输的数据进行压缩。
- 压缩算法有很多,今天介绍一种比较好理解的贪心算法 - 霍夫曼编码;
- 霍夫曼编码的本质就是对每个出现过的 ASCII 字符,通过一个压缩字典,映射成另一个字符,映射后的字符是二进制比特串:001、0101、00 等等;
- 解压缩就是这个过程的逆过程;
2、引例
源字节流
- 首先,一个字符串 “HelloWorld”,在没有进行压缩的情况下采用 ASCII 编码,占用字节总数为 10,即 10 * 8 = 80 个比特位。
压缩字典
- 然后,通过霍夫曼算法生成压缩字典如下(具体生成过程