Huffman编码
霍夫曼编码(英语:Huffman Coding),又译为哈夫曼编码、赫夫曼编码,是一种用于无损数据压缩的熵编码(权编码)算法。由美国计算机科学家大卫·霍夫曼(David Albert Huffman)在1952年发明。(来源于维基百科)
是一种变长的编码方式,对出现频率高的字符采用较短的编码,而对出现频率较低的字符采用较长的编码(在对字符进行变长编码时,注意要满足前缀码规则:任意字符的编码不能是其他字符编码的前缀)
要得到Huffman编码,首先需要构建Huffman树。我们首先来介绍一下Huffman树
Huffman树
在我们构造Huffman树之前,我们需要声明几个定义:
- 路径:连接两个结点的分支,构成这两个结点的路径
- 路径长度:路径的分支数
- 结点的权:为结点赋予的一个有意义的实数
- 结点的带权路径长度:根结点到该节点的 路径长度 乘以 该结点 的权值,即该结点的带权路径长度
- 树的带权路径长度:树中 所有叶子结点的带权路径长度 之和
- Huffman树: n n n个带权叶子 构成的二叉树中,带权路径WPL最小的二叉树称为 Huffman树
Huffman树的构造步骤
- 根据给定的 n n n个权值 w 1 , w 2 , w 3 , . . . , w n w_1,w_2,w_3,...,w_n w1,w2,w3,...,