熵的基础理论（信息熵、交叉熵、霍夫曼编码、条件熵、互信息、KL散度）

最新推荐文章于 2022-04-29 09:44:23 发布

十里清风

最新推荐文章于 2022-04-29 09:44:23 发布

阅读量2.2k

点赞数 2

分类专栏：机器学习文章标签：信息熵机器学习数据分析

本文链接：https://blog.csdn.net/sinat_34072381/article/details/105834428

版权

机器学习专栏收录该内容

23 篇文章

订阅专栏

本文深入探讨了信息论中的核心概念，包括信息量、信息熵、条件熵、联合熵、交叉熵、相对熵（KL散度）及互信息。通过霍夫曼编码的例子，阐述了这些概念的实际应用，并解释了它们在数据压缩和机器学习中的作用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

信息量（Information）

信息量用于度量信息的不确定性，信息量与事件发生的概率有关，事件随机性越大，信息量越大.

若事件 $X$ 的信息量为 $I (X)$ ，由于观察两个独立事件同时发生时获得的信息量等于观察到事件各自发生时获得的信息量之和，即
信息量满足
$I (X, Y) = I (X) + I (Y)$
$P (X, Y) = P (X) P (Y)$ ，故 $X$ 的信息量定义为
$-\log P(X)$

信息熵（Information Entropy）

信息熵用于衡量随机事件的不确定性，是所有随机事件信息量的期望. 若随机变量 $X$ 的分布为 $P (X)$ ，则 $X$ 的信息熵
$H(X)=-\sum_{x \in X}P(x)\log P(x)$

熵的性质

熵只依赖与随机变量的分布，与随机变量的取值无关；
经典熵的定义中，对数的底数为2，单位为bit；
随机变量的可能值越多，信息熵就越大，不确定性越大；
当随机变量均匀分布时，熵最大，且 $\leq H(X)\leq \log N$ ；

证明： $\leq H(X)\leq \log N$

由于所有事件的概率之和为1（约束条件），构造拉个朗日函数
$\lambda)=-\sum_x P(x)\log P(x) +\lambda\left (\sum_x P(x) - 1\right)$

求解得到极值处满足 $P(x_1)=\cdots=P(x_N)=e^{\lambda - 1}=1/N$ ，因此 $H(X)\leq \log N$ 。

熵与霍夫曼编码

考虑具有4种可能状态 ${a, b, c, d\}$ 的随机变量 $X$ ：

当每个状态服从均匀分布，即概率均为1/4，若使用霍夫曼编码：00、01、10、11，表示上述4种状态，则平均编码长度为
$\frac{1}{4}\times2\times4=2$

亦可理解为，给定一个状态，平均询问多少次可确定该状态，编码图如下：

当每个状态的概率分别为 $(\dfrac{1}{2}, \dfrac{1}{4}, \dfrac{1}{8}, \dfrac{1}{8})$ ，若使用霍夫曼编码：0、10、110、111，表示上述4种状态，则平均编码长度为
$\frac{1}{2}\times 1 + \frac{1}{4} \times 2 + 2\times \frac{1}{8}\times 3=1.75$
编码图如下：

不难计算出， $X$ 的第一种分布的信息熵为
$H(X)=-4\times\frac{1}{4}\times\log_2\frac{1}{4}=2$

$X$ 的第二种分布的信息熵为
$H(X)=-\frac{1}{2}\log_2\frac{1}{2} -\frac{1}{4}\log_2\frac{1}{4}-\frac{1}{8}\log_2\frac{1}{8}-\frac{1}{8}\log_2\frac{1}{8}=1.75$

可见， $X$ 的信息熵刚好等于霍夫曼编码长度（最短编码长度）.

条件熵（Conditional Entropy）

条件熵表示已知 $X$ 的条件下， $Y$ 的不确定性。定义为已知 $X$ 的条件下， $Y$ 的条件概率分布的熵对 $X$ 的数学期望，即
$\begin{aligned}H(Y|X) & =\sum_{x \in X} P(x)H(Y|X=x) \\ & = -\sum_{x \in X} P(x)\sum_{y \in Y}P(y|x) \log P(y|x) \\ & = -\sum_{x,y}P(x, y) \log P(y|x) \end{aligned}$

联合熵（Joint Entropy）

将一维随机变量分布推广到多维随机变量分布，则联合熵
$Y)=-\sum_{x,y} P(x, y)\log P(x, y)$

信息熵、联合熵与条件熵
$\begin{aligned}H(Y|X) & =-\sum_{x,y}P(x, y) \log P(y|x) \\ & = -\sum_{x,y} P(x, y) [\log P(x) - \log P(x, y)]\\ & = H(X, Y) - \sum_{x,y} P(x, y) \log P(x)\\ & = H(X, Y) - \sum_{x} P(x) \log P(x) \\ & = H(X, Y) - H(X) \end{aligned}$

即条件熵 $H (Y ∣ X)$ 等于联合熵 $H (X, Y)$ 减去信息熵 $H (X)$ ，若 $X$ 为已知样本分布（熵已知），最大化条件熵等价于最大化交叉熵。

交叉熵（Cross Entropy）

对于随机变量 $X$ 使用霍夫曼编码，当其服从均匀分布时，其平均编码长度为2；当其服从 $(\dfrac{1}{2}, \dfrac{1}{4}, \dfrac{1}{8}, \dfrac{1}{8})$ 分布时，其平均编码长度为1.75，但若不知其真实分布，使用图1所示的编码方式，则其平均编码长度为
$\frac{1}{2}\times2+\frac{1}{4}\times2+\frac{1}{8}\times2+\frac{1}{8}\times2=2$

显然大于真实分布对应的平均编码长度.

交叉熵用于衡量以非真实分布 $Q (X)$ 对应的霍夫曼树，编码来自于真实分布 $P (X)$ 样本的平均长度，即
$Q)=-\sum_{x\in X} P(x) \log Q(x)$
若真实分布可能为 $P_1(X)=(\dfrac{1}{2}, \dfrac{1}{4}, \dfrac{1}{8}, \dfrac{1}{8}),\ P_2(X)=(\dfrac{3}{4}, \dfrac{1}{8}, \dfrac{1}{16}, \dfrac{1}{16})$ ，非真实分布 $Q(X)=(\dfrac{1}{4}, \dfrac{1}{4}, \dfrac{1}{4}, \dfrac{1}{4})$

则不同真实分布的信息熵
$H(P_1)=1.75，H(P_2)=1.186$

交叉熵
$H(P_1,Q)=-\frac{1}{2}\times\log_2\frac{1}{4}-\frac{1}{4}\times\log_2\frac{1}{4}-2\times\frac{1}{8} \times\log_2\frac{1}{4}=2\\ H(P_2, Q)=-\frac{3}{4}\times\log_2\frac{1}{4}-\frac{1}{8}\times\log_2\frac{1}{4}-2\times\frac{1}{16}\times\log_2\frac{1}{4}=2$