自信息、熵、联合熵、条件熵、互信息、交叉熵、KL散度

最新推荐文章于 2024-03-05 20:48:18 发布

AIHUBEI

最新推荐文章于 2024-03-05 20:48:18 发布

阅读量2.1k

点赞数 2

文章标签：信息熵熵编码机器学习

本文链接：https://blog.csdn.net/aihubei/article/details/104720246

版权

文章目录

1、熵
- - - 1.1 **自信息和熵**
    - 1.2 **联合熵和条件熵**
2、互信息
3、交叉熵和散度
4、熵编码

1、熵

在信息论中，熵用来衡量一个随机事件的不确定性。在物理学中，表示一个热力学系统的无序程度。

1.1 自信息和熵

自信息（Self Information）表示一个随机事件所包含的信息量. 一个随机事件发生的概率越高，其自信息越低. 如果一个事件必然发生，其自信息为0.

对一个随机变量 $X$ （ $X\in{\mathfrak{X}}$ ，概率分布为 $P(x），x\in{\mathfrak{X}}$ ，当 $X = x$ 时，自信息 $I (x)$ 定义为：
$I(x)=-logp(x)\tag{式1}$

对于分布为 $p (x)$ 的随机变量 $X$ ,其熵（自信息的期望）的定义如下：
$H(X)=E_X[I(x)]=E_X[-logp(x)]=-\sum_{x\in{\mathfrak{X}}}p(x)logp(x)\tag{式2}$

熵越大，则随机变量的信息越多；熵越小，则随机变量的信息越小。如果对于一个确定的信息，那么熵为零，信息量也为零。如果一个概率分布为一个均匀分布，则熵最大。

1.2 联合熵和条件熵

对于两个离散随机变量 $X 和 Y$ ,假设 $X$ 取值集合为 $\mathfrak{X}$ ; $Y$ 取值集合为 $\mathcal{Y}$ ,联合概率分布满足 $p (x, y)$ ,则 $X 和 Y$ 的联合熵为：
$H(X,Y)=-\sum_{x\in{\mathfrak{X}}}\sum_{y\in{\mathcal{Y}}}p(x,y)logp(x,y)\tag{式3}$
$X 和 Y$ 的条件熵为：
$H(X|Y)=-\sum_{x\in{\mathfrak{X}}}\sum_{y\in{\mathcal{Y}}}p(x,y)logp(x\vert{y})=-\sum_{x\in{\mathfrak{X}}}\sum_{y\in{\mathcal{Y}}}p(x,y)log\cfrac{p(x,y)}{p(y)}\tag{式4}$

2、互信息

互信息是衡量已知一个变量时，另一个变量不确定性减少程度。两个离散随机变量 $X$ 和 $Y$ 的互信息定义为：
$I(X:Y)=\sum_{x\in{\mathfrak{X}}}\sum_{y\in{\mathcal{Y}}}p(x,y)log\cfrac{p(x,y)}{P(x)p(y)}\tag{式5}$
性质：
$I(X:Y)=H(X)-H(X|Y)\\=H(Y)-H(Y|X)\tag{式6}$
如果变量 $X$ 和变量 $Y$ 互相独立，他们的互信息为零。

3、交叉熵和散度

3.1 交叉熵

对于分布为 $p (x)$ 的随机变量，熵 $H (p)$ 表示其最优编码长度。交叉熵是按照概率分布 $q$ 的最优编码对真实分布 $p$ 的信息进行编码的长度，定义如下：
$H(p,q)=E_p[-logq(x)]=-\sum_{x}p(x)logq(x)\tag{式7}$
在给定 $p$ 的情况下，如果 $q 和 p$ 约接近，那么交叉熵越小；如果 $q 和 P$ 越远，交叉熵越大。

3.2 KL散度

$K L 散度$ 也叫做 $K L 距离$ 或者 $相对熵$ ，是用概率分布 $q$ 来近似 $p$ 时所造成的信息损失量。KL散度是按照概率分布 $q$ 的最优编码对真实分布 $p$ 的信息进行编码，其平均编码长度（交叉熵） $H (p, q)$ 和 $p$ 的最优编码长度（熵） $H (p)$ 之间的差异。对于离散概率分布 $p$ 和 $q$ ,从 $q 到$ p$的KL散度定义为：
$KL(p,q)=H(p,q)-H(p)=\sum_xp(x)log\cfrac{p(x)}{q(x)}\tag{式8}$

KL散度总是非负的，即 $KL(p,q)\ge{0}$ ,可以衡量两个概率分布之间的距离。只有当 $p = q$ 时， $K L (p, q) = 0$ .

3.3 JS散度

$J S 散度$ 是一种对称的衡量两个分布相似度的度量方式，定义如下：
$JS(p,q)=\cfrac{1}{2}KL(p,m)+\cfrac{1}{2}KL(q,m)\tag{式9}$
其中： $m=\cfrac{1}{2}(p+q)$ .

很明显，JS散度是KL散度的一种改进，JS散度是对称的，但是两中散度的共性问题是：当两个分布 $p, q$ 没有重叠或者重叠很少的时候，KL散度和JS散度都很难衡量两个分布的距离。

4、熵编码

信息论的研究目标之一是如何用最少的编码表示传递信息. 假设我们要传递一段文本信息，这段文本中包含的符号都来自于一个字母表 $\boldsymbol{A}$ ，我们就需要对字母表 $\boldsymbol{A}$ 中的每个符号进行编码. 以二进制编码为例，我们常用的ASCII 码就是用固定的8 bits 来编码每个字母. 但这种固定长度的编码方案不是最优的. 一种高效的编码原则是字母的出现概率越高，其编码长度越短. 比如对字母 $a, b, c$ 分别编码为0, 10, 110.