霍夫曼树

最新推荐文章于 2024-04-21 22:27:18 发布

山西茄子

最新推荐文章于 2024-04-21 22:27:18 发布

阅读量1.1k

点赞数

分类专栏：算法--数据结构

算法--数据结构专栏收录该内容

19 篇文章 0 订阅

订阅专栏

信息熵

用这个公式衡量它的不确定性：f(p) = log(1/p) = -log(p);

而信源的平均不确定性，称为信息熵，用下面的公式表示：H(U) = E[-log(pi)] = -Epi*log（pi）。

注意：1. 当式中的对数的底为2时，信息熵的单位为比特。它底数为其它时，它对应的单位也不一样。

2. 信息熵是信息论中用于度量信息量的一个概念。一个系统越是有序，信息熵就越低；反之，一个系统越是混乱，信息熵就越高。所以，信息熵也可以说是系统有序化程度的一个度量。

霍夫曼树

先介绍几个概念

路径：从树中一个节点到另一个节点之间的分支构成这两个节点之间的路径。路径长的分支数目称为路径长度。

树的路径长度：从树根到每个节点的路径长度之和。

树的带权路径长度：树中所有叶子节点的带权路径长度之和，通常记做WPL。

霍夫曼树：假设有n个权值{w1,w2...},试构造一棵有n个叶子节点的二叉树，每个叶子节点带权为wi，则其中带权路径长度WPL最小的二叉树称作最优二叉树或霍夫曼树。

霍夫曼编码就是利用了这种大概率事件分配短码的思想。

霍夫曼算法

霍夫曼算法用来构建霍夫曼树，如下：

一、对给定的n个权值{W1,W2,W3,...,Wi,...,Wn}构成n棵二叉树的初始集合F={T1,T2,T3,...,Ti,...,Tn}，其中每棵二叉树Ti中只有一个权值为Wi的根结点，它的左右子树均为空。（为方便在计算机上实现算法，一般还要求以Ti的权值Wi的升序排列。）
二、在F中选取两棵根结点权值最小的树作为新构造的二叉树的左右子树，新二叉树的根结点的权值为其左右子树的根结点的权值之和。
三、从F中删除这两棵树，并把这棵新的二叉树同样以升序排列加入到集合F中。
四、重复二和三两步，直到集合F中只有一棵二叉树为止。

应用

哈夫曼树─即最优二叉树，带权路径长度最小的二叉树，经常应用于数据压缩。

在计算机信息处理中， “哈夫曼编码”是一种一致性编码法（又称“熵编码法”），用于数据的无损耗压缩。这一术语是指使用一张特殊的编码表将源字符（例如某文件中的一个符号）进行编码。这张编码表的特殊之处在于，它是根据每一个源字符出现的估算概率而建立起来的（出现概率高的字符使用较短的编码，反之出现概率低的则使用较长的编码，这便使编码之后的字符串的平均期望长度降低，从而达到无损压缩数据的目的）。这种方法是由David.A.Huffman发展起来的。例如，在英文中，e的出现概率很高，而z的出现概率则最低。当利用哈夫曼编码对一篇英文进行压缩时，e极有可能用一个位(bit)来表示，而z则可能花去25个位（不是26）。用普通的表示方法时，每个英文字母均占用一个字节（byte），即8个位。二者相比，e使用了一般编码的1/8的长度，z则使用了3倍多。若能实现对于英文中各个字母出现概率的较准确的估算，就可以大幅度提高无损压缩的比例。

更简单的例子：

0.7 0.3 0.1 最后的0.7是0,0.3是10,0.1是01。

山西茄子

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
霍夫曼树

信息熵用这个公式衡量它的不确定性：f(p) = log(1/p) = -log(p);而信源的平均不确定性，称为信息熵，用下面的公式表示：H(U) = E[-log(pi)] = -Epi*log（pi）。注意：1. 当式中的对数的底为2时，信息熵的单位为比特。它底数为其它时，它对应的单位也不一样。 2. 信息熵是信息论中用于度量信息量的一个概念。一个系
复制链接

扫一扫