哈夫曼编码(Huffman Coding)原理详解

哈夫曼编码

哈夫曼编码,又称为哈夫曼编码(Huffman Coding)

是一种可变长编码( VLC, variable length coding))方式,比起定长编码的 ASCII 编码来说,哈夫曼编码能节省很多的空间,因为每一个字符出现的频率不是一致的;

是一种用于无损数据压缩的熵编码算法,通常用于压缩重复率比较高的字符数据。

如果我们通过转换成ASCII码对应的二进制数据将字符串 BCAADDDCCACACAC 通过二进制编码进行传输,那么一个字符传输的二进制位数为 8bits,那么总共需要 120 个二进制位;而如果使用哈夫曼编码,该串字符可压缩至 28位。
在这里插入图片描述

哈夫曼编码方法

哈夫曼编码首先会使用字符的频率创建一棵,然后通过这个树的结构为每个字符生成一个特定的编码,出现频率高的字符使用较短的编码,出现频率低的则使用较长的编码,这样就会使编码之后的字符串平均长度降低,从而达到数据无损压缩的目的。

1. 计算字符串中每个字符的频率:

在这里插入图片描述

2. 按照字符出现的频率进行排序,组成一个队列 Q

出现频率最低的在前面,出现频率高的在后面。

在这里插入图片描述

3. 把这些字符作为叶子节点开始构建一颗哈夫曼树

哈夫曼树又称为最优二叉树,是一种带权路径长度最短的二叉树

(1)首先创建一个空节点 z,将最小频率的字符分配给 z 的左侧,并将频率排在第二位的分配给 z 的右侧,然后将 z 赋值为两个字符频率的和;然后从队列 Q 中删除 B 和 D,并将它们的和添加到队列中,上图中 * 表示的位置。

在这里插入图片描述

(2)紧接着,重新创建一个空的节点 z,并将 4 作为左侧的节点,频率为 5 的 A 作为右侧的节点,4 与 5 的和作为父节点,并把这个和按序加入到队列中,再根据频率从小到大构建树结构(小的在左)

在这里插入图片描述

(3)继续按照之前的思路构建树,直到所有的字符都出现在树的节点中,哈弗曼树构建完成。

节点的带权路径长度为从根节点到该节点的路径长度与节点权值的乘积。

该二叉树的带权路径长度 WPL = 6 * 1 + 5 * 2 + 3 * 3 + 1 * 3 = 28。

在这里插入图片描述

4. 对字符进行编码:

哈夫曼树构建完成,下面我们要对各个字母进行编码,编码原则是:对于每个非叶子节点,将 0 分配给连接线的左侧,1 分配给连接线的右侧,最终得到字符的编码就是从根节点开始,到该节点的路径上的 0 1 序列组合

在这里插入图片描述

因此各个字母的编码分别为:

ABCD
111000101

在没有经过哈夫曼编码之前,字符串“BCAADDDCCACACAC”的二进制为:

10000100100001101000001010000010100010001000100010001000100001101000011010000010100001101000001010000110100000101000011

也就是占了 120 比特;

编码之后为:

1000111110110110100110110110

占了 28 比特。

5. 确定发送的数据

哈夫曼编码将发送字符串的数据长度极大压缩,考虑到接收方的编码,还需要把哈夫曼树的结构也传递过去。

字符占用的 32 比特和 频率占用的 15 比特也需要传递过去。

总体上,编码后比特数为32 + 15 + 28 = 75,比 120 比特少了 45 个,效率还是非常高的。

在这里插入图片描述

从本质上讲,哈夫曼编码是将最宝贵的资源(最短的编码)给出现概率最多的数据。

在上面的例子中,C 出现的频率最高,它的编码为 0,就省下了不少空间。

特点

哈夫曼树和编码都不唯一!只有树的WPL(带权路径长度)才是唯一的!

Huffman编码效果的唯一性
判断是否为哈夫曼编码(编程题)

哈夫曼编码有两个特点:

  1. 带权路径长度WPL最短且唯一
  2. 编码互不为前缀(一个编码不是另一个编码的开头)。
  • 为什么通过哈夫曼编码后得到的二进制码不会有前缀的问题呢?

这是因为在哈夫曼树中,每个字母对应的节点都是叶子节点,而他们对应的二进制码是由根节点到各自节点的路径所决定的,正因为是叶子节点,每个节点的路径不可能和其他节点有前缀的关系。

  • 为什么通过哈夫曼编码获得的二进制码短呢?

因为哈夫曼树是带权路径长度最短的树,权值较大的节点离根节点较近。而带权路径长度是指:树中所有的叶子节点的权值乘上其到根节点的路径长度,这与最终的哈夫曼编码总长度成正比关系的。

参考资料:
图解霍夫曼编码
哈夫曼编码(Huffman Coding)多图详细解析

  • 164
    点赞
  • 627
    收藏
    觉得还不错? 一键收藏
  • 12
    评论
以下是C语言实现哈夫曼编码的代码,其中包含注释: ```c #include <stdio.h> #include <stdlib.h> #include <string.h> #define MAX 1000 // 定义最大编码长度 typedef struct { int weight; // 权值 int parent, lchild, rchild; // 双亲和左右孩子结点 } HTNode, *HuffmanTree; typedef char **HuffmanCode; void Select(HuffmanTree HT, int n, int *s1, int *s2) { // 在前n个结点中选择权值最小的两个结点s1和s2 int i, min; for (i = 1; i <= n; i++) { if (HT[i].parent == 0) { min = i; break; } } for (i = 1; i <= n; i++) { if (HT[i].parent == 0 && HT[i].weight < HT[min].weight) { min = i; } } *s1 = min; for (i = 1; i <= n; i++) { if (HT[i].parent == 0 && i != *s1) { min = i; break; } } for (i = 1; i <= n; i++) { if (HT[i].parent == 0 && HT[i].weight < HT[min].weight && i != *s1) { min = i; } } *s2 = min; } void CreateHuffmanTree(HuffmanTree *HT, int n) { // 由n个权值为w的结点构建哈夫曼树HT if (n <= 1) { return; } int m = 2 * n - 1; *HT = (HuffmanTree) malloc((m + 1) * sizeof(HTNode)); int i; for (i = 1; i <= m; i++) { (*HT)[i].parent = 0; (*HT)[i].lchild = 0; (*HT)[i].rchild = 0; } for (i = 1; i <= n; i++) { scanf("%d", &((*HT)[i].weight)); } int s1, s2; for (i = n + 1; i <= m; i++) { Select(*HT, i - 1, &s1, &s2); (*HT)[s1].parent = i; (*HT)[s2].parent = i; (*HT)[i].lchild = s1; (*HT)[i].rchild = s2; (*HT)[i].weight = (*HT)[s1].weight + (*HT)[s2].weight; } } void CreateHuffmanCode(HuffmanTree HT, HuffmanCode *HC, int n) { // 根据哈夫曼树HT求出n个字符的哈夫曼编码HC *HC = (HuffmanCode) malloc((n + 1) * sizeof(char *)); char *cd = (char *) malloc(n * sizeof(char)); cd[n - 1] = '\0'; int i, c, f; for (i = 1; i <= n; i++) { int start = n - 1; for (c = i, f = HT[i].parent; f != 0; c = f, f = HT[f].parent) { if (HT[f].lchild == c) { cd[--start] = '0'; } else { cd[--start] = '1'; } } (*HC)[i] = (char *) malloc((n - start) * sizeof(char)); strcpy((*HC)[i], &cd[start]); } free(cd); } void HuffmanCoding(HuffmanTree HT, HuffmanCode HC, int n) { // 输入n个字符的权值,建立哈夫曼树HT,并求出n个字符的哈夫曼编码HC CreateHuffmanTree(&HT, n); CreateHuffmanCode(HT, &HC, n); } void HuffmanDecoding(HuffmanTree HT, int n) { // 将01序列翻译成原来的文本字符 printf("请输入01序列:\n"); char str[MAX]; scanf("%s", str); int i, c = 2 * n - 1; for (i = 0; str[i] != '\0'; i++) { if (str[i] == '0') { c = HT[c].lchild; } else { c = HT[c].rchild; } if (HT[c].lchild == 0 && HT[c].rchild == 0) { printf("%d", c); c = 2 * n - 1; } } } int main() { int n; printf("请输入字符的个数n:\n"); scanf("%d", &n); HuffmanTree HT; HuffmanCode HC; HuffmanCoding(HT, HC, n); int i; printf("各字符的哈夫曼编码如下:\n"); for (i = 1; i <= n; i++) { printf("%d %s\n", i, HC[i]); } HuffmanDecoding(HT, n); return 0; } ``` 以上是C语言实现哈夫曼编码的代码,可以根据输入的字符权值构建哈夫曼树,并输出各字符对应的哈夫曼编码。同时,可以将传输的文本转换成对应的哈夫曼编码01序列,并将哈夫曼编码01序列翻译成原来的文本字符。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 12
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值