信息论的基本概念（自信息，条件熵，联合熵，互信息，条件互信息）

koala_cola

已于 2022-04-07 23:17:26 修改

阅读量1w

点赞数 13

文章标签：深度学习自然语言处理信息论

于 2020-09-09 10:06:22 首次发布

本文链接：https://blog.csdn.net/koala_cola/article/details/108483063

版权

大概是你见过最详细最靠近数学方式理解熵系列的博客。
目前内容有信息量，自信息，条件熵，联合熵，互信息，条件互信息。

自信息

香农当时希望自信息这个概念要满足如下几个条件：

1、一个百分百发生的事件不提供任何信息

2、这个事件越不可能发生，他的发生将会提供更多信息

3、如果两个独立事件是分开测量的，他们的自信息总和就是他们分别的自信息之和

这第三点也就是说满足下面这个式子（假设 $I (x)$ 代表x的信息量）：
$\quad式1$
我们知道，独立的两个事件一同发生的概率是
$P(x,y)=P(x)\ * \ P(y)\quad 式2$
根据第一点和第二点我们知道，自信息是一个和事件发生概率有关的数学量，我们可以假设成如下形式
$I (x) = f (P (x))$
那么要满足式1和式2，最合适的 $f ()$ 就是 $l o g ()$ 函数，因此我们得到了如下关于自信息的定义
$I (x) = - l o g P (x)$
我们知道log是个定义域内单调递增的函数，所以为了满足自信息随着概率升高递减，在前面补上个负号，这也是香农1、2的定义所隐含的。

这个log的底数我们是不确定的，如果底数是2，这个自信息的单位就是"bit"或者"shannon"；如果是自然对数e，就是“nat”（nature缩写）；如果底数是10，单位就是“hartleys”或者代表十进制数的“digits”，有时候也可以写成“dits”。

正式的,因为负号可以提到log里面，所以还有一个形式（第二个等式）
$I(x)=-logP(x)=log(\frac{1}{P(x)})$

(香农)熵

香农熵就被定义成如下形式
$H(X)=\sum_x-P(x)logP(x)\\=\sum_xP(x)I(x) \\=E[I(x)]$
上面第三个等式，我们知道关于随机变量x的概率分布期望就是 $\sum_{k=1}^{+\infin}x_{k}P(x_{k})$

，是不是就能感觉到熵其实就是信息量的期望。

特性：

连续性
该量度应连续，概率值小幅变化只能引起熵的微小变化。
对称性
符号xi重新排序后，该量度应不变。如
$H_n(p_1,p_2..)=H_n(p_2,p_1...)$
3.极值性
当所有事件等概率发生，熵达到最大值（因为非常不确定谁会发生）
$H_n(p_1,p_2...)\le H_n(\frac{1}{n},\frac{1}{n}...)=\log_b{n}，H后的下标代表事件数$
这个性质其实就是要证明下式，该式子的证明可通过琴生不等式证明

根据琴生不等式，即当函数是凸函数时，总有等概率事件的熵应随符号的数量增加。这个也很好理解，因为假如选项只有两个，正确答案是其中一个，概率都是等概率的也就是二分之一，此时答对的可能性是一半，但如果选项有四个，混乱程度就增加了，也就是说
$\log_b{n}\le \log_b(n+1)=H_{n+1}(\frac{1}{n+1},\frac{1}{n+1}....)$
增减一概率为零的事件不改变熵：

联合熵

联合熵是一个变量集合不确定性的度量。

被定义为
$H(X,Y)=-\sum_x\sum_yP(x,y)logP(x,y)$
x和y是X和Y分布里的一个特定值，P（x,y）就是联合概率。

如果变量数更多,那么定义可以延伸成以下形式。
$H(X_1,...,X_n)=-\sum_{x_1}...\sum_{x_n}P(x_1...x_n)logP(x_1...x_n)$
性质：

1.非负性。因为每个log项都是小于0的，所以加合也小于0，取反非负。

2.大于等于任何一个变量的独立熵
$H(X_1...X_N)≥max\{H(X_1),..H(X_N)\}$
3.小于等于每个变量的独立熵合
$H (X, Y) \leq H (X) + H (Y)$

4.连锁法则
$H(X_1,X_2..X_n)=\sum_{i=1}^{n}H(X_i|X_1,...X_{i-1})$
用归纳法可以证明
${\begin{aligned}H(X_1,...X_m,X_{m+1})&=H(X_1,..X_m)+H(X_{m+1}|X_1...X_m)\quad[这是因为对m=2时已经证明过了，下面条件熵的部分]\\&=\sum_{i=1}^{m}H(X_i|X_1..X_{i-1})+H(X_{m+1}|X_1...X_m)\quad[假设对n=m时成立]\\&=\sum_{i=1}^{m+1}H(X_i|X_1,...X_{i-1})\quad[对n=m+1也成立]\end{aligned}}$

条件熵

假设另一个随机变量X的值已知，条件熵(或模糊性)量化描述随机变量Y的结果所需的信息量。
$\begin{aligned}H(Y|X)=&\sum_xp(x)H(Y|X=x) \quad[定义如此] \\=&-\sum_{X,Y}P(x,y)log\frac{P(x,y)}{P(x)}\quad[这里的推导略了，大致就是按全概率的思想把H（Y|X）展开]\end{aligned}$
也可以和联合熵做一个联系：
$\quad[这就是上面说的证明，稍微移项一下就好]$
这个推导过程如下：
$\begin{aligned}原式=&-\sum_{X,Y}P(x,y)log\frac{P(x,y)}{P(x)}\\=&-\sum_{X,Y}P(x,y)[logP(x,y)-logP(x)]\\=&-\sum_{X,Y}P(x,y)logP(x,y)+\sum_{X}P(x)logP(x)\end{aligned}$
这个过程从第二个等式到第三个等式可能有点奇怪，右侧直接把
$\sum_{X,Y}P(x,y)logP(x)=>\sum_{X}P(x)logP(x)$
这个是全概率公式，可以看到每个 $(x, y)$ 都互不相容，其和为全集，所以有
$P(x)=\sum_i^{\infin}P(xy_i)$
性质：

1.当且仅当Y完全由X决定，条件熵为0（因为不需要提供任何信息了）

2.当且仅当Y和X独立，条件熵等于分子独立熵

3.连锁法则
$\begin{aligned}H(X_1,X_2...X_n|Y)=&\sum_{i=1}^nH(X_i|X_1...X_{i-1},Y)【下面几个等式是证明】 \\=&H(X_1,...X_n,Y)-H(Y) \\=&H((X_1,Y)...X_n)-H(Y) \\=&H(X_1,Y)-H(Y)+\sum_{i=2}^nH(X_i|X_1...X_{i-1},Y) \quad[熵的连锁，移项] \\=&H(X_1|Y)+\sum_{i=2}^nH(X_i|X_1...X_{i-1},Y)\\证毕 \end{aligned}$

4.贝叶斯法则
$\mathrm {H} (Y|X)\,=\,\mathrm {H} (X|Y)-\mathrm {H} (X)+\mathrm {H} (Y)$
证明
$\mathrm {H} (Y|X)=\mathrm {H} (X,Y)-\mathrm {H} (X)}\\ {\displaystyle \mathrm {H} (X|Y)=\mathrm {H} (Y,X)-\mathrm {H} (Y)} \\对称性： {\displaystyle \mathrm {H} (X,Y)=\mathrm {H} (Y,X)$
用第一条等式减第二条等式就得到了贝叶斯法则

其他的性质
${\begin{aligned}\mathrm {H} (Y|X)&\leq \mathrm {H} (Y)\\\mathrm {H} (X,Y)&=\mathrm {H} (X|Y)+\mathrm {H} (Y|X)+\operatorname {I} (X;Y),\qquad \\\mathrm {H} (X,Y)&=\mathrm {H} (X)+\mathrm {H} (Y)-\operatorname {I} (X;Y),\,\\\operatorname {I} (X;Y)&\leq \mathrm {H} (X),\end{aligned}}$
第一条就不用多说了，知道别的分布总比不知道要好，所以左边需要的信息不会大于右边。也可以数学证明，这里不证明了。

剩下三条的 $I (X; Y)$ 是互信息，等等讲，不着急。

互信息

根据熵的连锁规则，有
$H (X, Y) = H (X) + H (Y ∣ X) = H (Y) + H (X ∣ Y)$
所以整理可得
$H (X) - H (X ∣ Y) = H (Y) - H (Y ∣ X)$
这个差就叫做X和Y的互信息，记做 $I (X; Y)$ 。

互信息的链规则：
$I(X_{1n};Y)=\sum_{i=1}^nI(X_i;Y|X_{1},...X_{n-1})$
证明：
$\begin{aligned}I(X_{1n};Y)=&H(X_1...X_n)-H(X_1,..X_n|Y)\quad [互信息定义] \\=&\sum_{i=1}^nH(X_i|X_1...X_{i-1})-\sum_{i=1}^nH(X_i|X_1...X_{i-1},Y) \\=&\sum_{i=1}^n[H(X_i|X_1...X_{i-1})-H(X_i|X_1...X_{i-1},Y)] \quad[互信息定义，多观察一下] \\=&\sum_{i=1}^nI(X_i;Y|X_{1},...X_{n-1}) \end{aligned}$
条件互信息的链规则：
$I(X_{1n};Y|Z)=\sum_{i=1}^nI(X_i;Y|X_{1},...X_{n-1},Z)$
证明和互信息链规则很像，其实就是要理解"|“和”;"的结合方式是
$I (X; Y ∣ Z) = I ((X; Y) ∣ Z) = H (X ∣ Z) = H (X ∣ Y, Z)$
然后按着上面的互信息链证明即可