信息熵、联合熵、条件熵、互信息

信息熵、联合熵、条件熵、互信息


1. 自信息量

一个随机事件 x x x自信息量1定义为:
I ( x ) = log ⁡ 1 p ( x ) I(x)=\log\frac{1}{p(x)} I(x)=logp(x)1

注意,在信息论中, log ⁡ \log log函数的底通常设置为2,此时,自信息量的单位为比特(bit);在机器学习中, log ⁡ \log log函数的底通常设置为自然常数e,此时,自信息量的单位为奈特(nat)。

需要从以下两方面来理解自信息量:

  • 自信息量表示,如果随机事件 x x x发生的概率 p ( x ) p(x) p(x)越小,一旦其发生,所获得的信息量就越大
  • 自信息量反映了事件发生的不确定性

举例说明,“中彩票”事件的概率极小,但是一旦中了彩票,“中彩票”事件的自信息量很大,也就是说,“中彩票”会获得极大的信息量(即收益)。另一方面,“中彩票”事件的概率很低,自信息量很大,意味着“中彩票”事件发生的不确定性也很大。

  • 发生概率越高的事情,具有的自信息量越少
  • 发生概率越低的事情,具有的自信息量越多

2. 信息熵

一个随机变量 X X X信息熵2定义为:
H ( X ) = ∑ x i ∈ X p ( x i ) I ( x i ) = ∑ x i ∈ X p ( x i ) log ⁡ 1 p ( x i ) . H(X) = \sum_{x_i\in X}p(x_i)I(x_i)\\ = \sum_{x_i\in X}p(x_i)\log\frac{1}{p(x_i)}. H(X)=xiXp(xi)I(xi)=xiXp(xi)logp(xi)1.

简记为: H ( X ) = − ∑ x p ( x ) log ⁡ p ( x ) . H(X)=-\sum_{x}p(x)\log p(x). H(X)=xp(x)logp(x).

信息熵的单位与自信息量一样。一个随机变量 X X X可以有多种取值可能,信息熵是随机变量 X X X所有可能情况的自信息量的期望。信息熵 H ( X ) H(X) H(X)表征了随机变量 X X X所有情况下的平均不确定度。

  • 不确定度越大,信息量越大
  • 不确定度越小,信息量越小

3. 最大熵定理

当随机变量 X X X所有取值的概率相等时,即 p ( x i ) p(x_i) p(xi)的概率都相等时,信息熵取最大值,随机变量具有最大的不确定性。例如,情景一:买彩票中奖和不中奖的概率都是 0.5 0.5 0.5时,此时买彩票是否中奖的不确定性最大。情景二:真实情况中,不中奖的概率远远大于中奖的概率,此时的不确定性要小于情景一,因为几乎能确定为不中奖。

最大熵定理
当随机变量 X X X,在离散情况下所有取值概率相等(或在连续情况下服从均匀分布),此时熵最大。即 0 ≤ H ( X ) ≤ log ⁡ ∣ X ∣ 0\leq H(X)\leq \log |X| 0H(X)logX,其中 ∣ X ∣ |X| X表示 X X X的取值个数。

例1. 根据经验判断,买彩票中奖的概率是 80 % 80\% 80%,不中奖的概率是 20 % 20\% 20%,求买彩票的信息熵。

解: 买彩票的概率空间为:
( X P ) = ( x 1 x 2 0.8 0.2 ) \binom{X}{P}=\begin{pmatrix} x_{1} &x_{2} \\ 0.8 & 0.2 \end{pmatrix} (PX)=(x10.8x20.2)

其中, x 1 x_{1} x1表示买的彩票没奖, x 2 x_{2} x2表示买的彩票有奖。

  • 买彩票后,“没中奖”事件获得的自信息量为:
    I ( x 1 ) = log ⁡ 2 1 0.8 = log ⁡ 2 1.25 = log ⁡ 10 1.25 log ⁡ 10 2 = 0.322  bit I(x_1)=\log_2\frac{1}{0.8}=\log_21.25=\frac{\log_{10}1.25}{\log_{10}2}=0.322~\text{bit} I(x1)=log20.81=log21.25=log102log101.25=0.322 bit
  • 买彩票后,“中奖”事件获得的自信息量为:
    I ( x 2 ) = log ⁡ 2 1 0.2 = log ⁡ 2 5 = log ⁡ 10 5 log ⁡ 10 2 = 2.322  bit I(x_2)=\log_2\frac{1}{0.2}=\log_25=\frac{\log_{10}5}{\log_{10}2}=2.322~\text{bit} I(x2)=log20.21=log25=log102log105=2.322 bit

I ( x 1 ) < I ( x 2 ) I(x_1)<I(x_2) I(x1)<I(x2)可知,彩票有奖的不确定性要大于彩票没奖。

买彩票的信息熵为:
H ( X ) = p ( x 1 ) I ( x 1 ) + p ( x 2 ) I ( x 2 ) = 0.8 ∗ 0.322 + 0.2 ∗ 2.322 = 0.722  bit H(X)=p(x_1)I(x_1)+p(x_2)I(x_2)=0.8*0.322+0.2*2.322=0.722~\text{bit} H(X)=p(x1)I(x1)+p(x2)I(x2)=0.80.322+0.22.322=0.722 bit

**结果分析:**由最大熵定理可知,信息熵 H ( X ) H(X) H(X)的最大值为 H ( X ) max ⁡ = − log ⁡ 1 / 2 = 1 H(X)_{\max}=-\log 1/2=1 H(X)max=log1/2=1。例 1 1 1 H ( X ) H(X) H(X)小于1比特,意味着不确定性减少,带来的信息量也减少。也就是说,先验经验(买彩票大概率不中奖)减少了不确定性。

4. 联合熵

随机变量 X X X Y Y Y联合熵定义为:
H ( X , Y ) = ∑ x i ∈ X ∑ y i ∈ Y p ( x i , y i ) I ( x i , y i ) = ∑ x i ∈ X ∑ y i ∈ Y p ( x i , y i ) l o g 1 p ( x i , y i ) H(X, Y)=\sum_{x_i\in X}\sum_{y_i\in Y}p(x_i, y_i)I(x_i, y_i)\\ =\sum_{x_i\in X}\sum_{y_i\in Y}p(x_i, y_i)log\frac{1}{p(x_i, y_i)} H(X,Y)=xiXyiYp(xi,yi)I(xi,yi)=xiXyiYp(xi,yi)logp(xi,yi)1

简记为: H ( X , Y ) = − ∑ x , y p ( x , y ) log ⁡ p ( x , y ) H(X, Y)=-\sum_{x,y}p(x,y)\log p(x,y) H(X,Y)=x,yp(x,y)logp(x,y)

**联合熵 H ( X , Y ) H(X, Y) H(X,Y)表示随机变量 X X X Y Y Y一起发生时的信息熵,即 X X X Y Y Y一起发生时的确定度。**通俗地讲,联合熵 H ( X , Y ) H(X, Y) H(X,Y)表示 X X X Y Y Y一起发生时,产生的信息量。

5. 条件熵 H ( X ∣ Y ) H(X|Y) H(XY)

随机变量 X X X Y Y Y的**条件熵 H ( Y ∣ X ) H(Y|X) H(YX)**定义为:
H ( X ∣ Y ) = ∑ y j ∈ Y p ( y j ) H ( X ∣ Y = y j ) H(X|Y)=\sum_{y_j\in Y}p(y_j)H(X|Y=y_j) H(XY)=yjYp(yj)H(XY=yj)

**条件熵 H ( X ∣ Y ) H(X|Y) H(XY)表示已知随机变量 Y Y Y的情况下,随机变量 X X X的信息熵,即在 Y Y Y发生的前提下, X X X发生后新带来的不确定度。**通俗地讲,条件熵 H ( X ∣ Y ) H(X|Y) H(XY)表示在 Y Y Y发生的前提下, X X X发生新带来的信息量。

具体使用形式为:
H ( X ∣ Y ) = ∑ y j ∈ Y p ( y j ) H ( X ∣ Y = y j ) = − ∑ y j ∈ Y p ( y j ) ∑ x i ∈ X p ( x i ∣ y j ) log ⁡ p ( x i ∣ y j ) = − ∑ y j ∈ Y ∑ x i ∈ X p ( y j ) p ( x i ∣ y j ) log ⁡ p ( x i ∣ y j ) = − ∑ x i , y j p ( x i , y j ) log ⁡ p ( x i ∣ y j ) H(X|Y) = \sum_{y_j\in Y}p(y_j)H(X|Y=y_j) \\ = -\sum_{y_j\in Y}p(y_j)\sum_{x_i\in X}p(x_i|y_j)\log p(x_i|y_j)\\ = -\sum_{y_j\in Y}\sum_{x_i\in X}p(y_j)p(x_i|y_j)\log p(x_i|y_j)\\ = -\sum_{x_i,y_j}p(x_i,y_j)\log p(x_i|y_j) H(XY)=yjYp(yj)H(XY=yj)=yjYp(yj)xiXp(xiyj)logp(xiyj)=yjYxiXp(yj)p(xiyj)logp(xiyj)=xi,yjp(xi,yj)logp(xiyj)

简记为: H ( X ∣ Y ) = − ∑ x , y p ( x , y ) log ⁡ p ( x ∣ y ) H(X|Y)=-\sum_{x,y}p(x,y)\log p(x|y) H(XY)=x,yp(x,y)logp(xy)

条件熵 H ( X ∣ Y ) H(X|Y) H(XY)与联合熵 H ( X , Y ) H(X,Y) H(X,Y)的关系为:
H ( X ∣ Y ) = H ( X , Y ) − H ( Y ) H(X|Y)=H(X,Y)-H(Y) H(XY)=H(X,Y)H(Y)

推导过程如下:
H ( X ∣ Y ) = − ∑ x , y p ( x , y ) log ⁡ p ( x ∣ y ) = − ∑ x , y p ( x , y ) log ⁡ p ( x , y ) p ( y ) = − ∑ x , y p ( x , y ) log ⁡ p ( x , y ) + ∑ x , y p ( x , y ) log ⁡ p ( y ) = − ∑ x , y p ( x , y ) log ⁡ p ( x , y ) + ∑ y ( ∑ x p ( x , y ) ) log ⁡ p ( y ) = − ∑ x , y p ( x , y ) log ⁡ p ( x , y ) + ∑ y p ( y ) log ⁡ p ( y ) = H ( X , Y ) − H ( Y ) H(X|Y) = -\sum_{x,y}p(x,y)\log p(x|y)\\ = -\sum_{x,y}p(x,y)\log \frac{p(x,y)}{p(y)}\\ = -\sum_{x,y}p(x,y)\log p(x,y)+\sum_{x,y}p(x,y)\log p(y)\\ = -\sum_{x,y}p(x,y)\log p(x,y)+\sum_{y}(\sum_{x}p(x,y))\log p(y)\\ = -\sum_{x,y}p(x,y)\log p(x,y)+\sum_{y}p(y)\log p(y)\\ = H(X,Y)-H(Y) H(XY)=x,yp(x,y)logp(xy)=x,yp(x,y)logp(y)p(x,y)=x,yp(x,y)logp(x,y)+x,yp(x,y)logp(y)=x,yp(x,y)logp(x,y)+yxp(x,y)logp(y)=x,yp(x,y)logp(x,y)+yp(y)logp(y)=H(X,Y)H(Y)

5. 条件熵 H ( Y ∣ X ) H(Y|X) H(YX)

随机变量 X X X Y Y Y的**条件熵 H ( Y ∣ X ) H(Y|X) H(YX)**定义为:
H ( Y ∣ X ) = ∑ x i ∈ X p ( x i ) H ( Y ∣ X = x i ) H(Y|X)=\sum_{x_i\in X}p(x_i)H(Y|X=x_i) H(YX)=xiXp(xi)H(YX=xi)

**条件熵 H ( Y ∣ X ) H(Y|X) H(YX)表示已知随机变量 X X X的情况下,随机变量 Y Y Y的信息熵,即在 X X X发生的前提下, Y Y Y发生后新带来的不确定度。**通俗地讲,条件熵 H ( Y ∣ X ) H(Y|X) H(YX)表示在 X X X发生的前提下, Y Y Y发生新带来的信息量。

具体使用形式为:
H ( Y ∣ X ) = ∑ x i ∈ X p ( x i ) H ( Y ∣ X = x i ) = − ∑ x i ∈ X p ( x i ) ∑ y j ∈ Y p ( y j ∣ x i ) log ⁡ p ( y j ∣ x i ) = − ∑ x i ∈ X ∑ y j ∈ Y p ( x i ) p ( y j ∣ x i ) log ⁡ p ( y j ∣ x i ) = − ∑ x i , y j p ( x i , y j ) log ⁡ p ( y j ∣ x i ) H(Y|X) = \sum_{x_i\in X}p(x_i)H(Y|X=x_i) \\= -\sum_{x_i\in X}p(x_i)\sum_{y_j\in Y}p(y_j|x_i)\log p(y_j|x_i)\\ = -\sum_{x_i\in X}\sum_{y_j\in Y}p(x_i)p(y_j|x_i)\log p(y_j|x_i)\\ = -\sum_{x_i,y_j}p(x_i,y_j)\log p(y_j|x_i) H(YX)=xiXp(xi)H(YX=xi)=xiXp(xi)yjYp(yjxi)logp(yjxi)=xiXyjYp(xi)p(yjxi)logp(yjxi)=xi,yjp(xi,yj)logp(yjxi)

简记为: H ( Y ∣ X ) = − ∑ x , y p ( x , y ) log ⁡ p ( y ∣ x ) H(Y|X)=-\sum_{x,y}p(x,y)\log p(y|x) H(YX)=x,yp(x,y)logp(yx)

条件熵 H ( Y ∣ X ) H(Y|X) H(YX)与联合熵 H ( X , Y ) H(X,Y) H(X,Y)的关系为:
H ( Y ∣ X ) = H ( X , Y ) − H ( X ) H(Y|X)=H(X,Y)-H(X) H(YX)=H(X,Y)H(X)

推导过程见 H ( X ∣ Y ) H(X|Y) H(XY)

7. 互信息

互信息量定义为后验概率与先验概率比值的对数:
I ( x i ; y j ) = log ⁡ p ( x i ∣ y j ) p ( x i ) I(x_i;y_j)=\log \frac{p(x_i|y_j)}{p(x_i)} I(xi;yj)=logp(xi)p(xiyj)

互信息(平均互信息量):
I ( X ; Y ) = ∑ x i ∈ X ∑ y j ∈ Y p ( x i , y j ) log ⁡ p ( x i ∣ y j ) p ( x i ) I(X;Y)=\sum_{x_i\in X}\sum_{y_j \in Y}p(x_i,y_j)\log \frac{p(x_i|y_j)}{p(x_i)} I(X;Y)=xiXyjYp(xi,yj)logp(xi)p(xiyj)

简记为:
I ( X ; Y ) = ∑ x , y p ( x , y ) log ⁡ p ( x ∣ y ) p ( x ) I(X;Y)=\sum_{x,y}p(x,y)\log \frac{p(x|y)}{p(x)} I(X;Y)=x,yp(x,y)logp(x)p(xy)

互信息具有以下性质:
I ( X ; Y ) = H ( X ) − H ( X ∣ Y ) = H ( Y ) − H ( Y ∣ X ) = I ( Y ; X ) I(X;Y) = H(X)-H(X|Y) = H(Y)-H(Y|X) = I(Y;X) I(X;Y)=H(X)H(XY)=H(Y)H(YX)=I(Y;X)

互信息的理解:
H ( X ) H(X) H(X) X X X的不确定度, H ( X ∣ Y ) H(X|Y) H(XY) Y Y Y已知时是 X X X的不确定度,则 I ( X ; Y ) = H ( X ) − H ( X ∣ Y ) I(X;Y)=H(X)-H(X|Y) I(X;Y)=H(X)H(XY)表示 Y Y Y已知使得 X X X的不确定度减少了 I ( X ; Y ) I(X;Y) I(X;Y) Y Y Y已知时 X X X的不确定度为 H ( X ∣ Y ) = H ( X ) − I ( X ; Y ) H(X|Y)=H(X)-I(X;Y) H(XY)=H(X)I(X;Y)

8. 小结

名称公式含义
H ( X ) H(X) H(X) H ( X ) = − ∑ x ∈ X p ( x ) log ⁡ p ( x ) H(X)=-\sum_{x\in X}p(x)\log p(x) H(X)=xXp(x)logp(x) H ( X ) H(X) H(X)表示 X X X的不确定度
联合熵 H ( X , Y ) H(X, Y) H(X,Y) H ( X , Y ) = − ∑ x , y p ( x , y ) log ⁡ p ( x , y ) H(X, Y)=-\sum_{x,y}p(x,y)\log p(x,y) H(X,Y)=x,yp(x,y)logp(x,y)联合熵 H ( X , Y ) H(X, Y) H(X,Y)表示 X X X Y Y Y一起发生的不确定度
条件熵 H ( Y ∣ X ) H(Y|X) H(YX) H ( Y ∣ X ) = − ∑ x , y p ( x , y ) log ⁡ p ( y ∣ x ) H(Y|X)=-\sum_{x,y}p(x,y)\log p(y|x) H(YX)=x,yp(x,y)logp(yx)条件熵 H ( Y ∣ X ) H(Y|X) H(YX)表示 X X X发生后, Y Y Y的不确定度
条件熵 H ( X ∣ Y ) H(X|Y) H(XY) H ( X ∣ Y ) = − ∑ x , y p ( x , y ) log ⁡ p ( x ∣ y ) H(X|Y)=-\sum_{x,y}p(x,y)\log p(x|y) H(XY)=x,yp(x,y)logp(xy)条件熵 H ( X ∣ Y ) H(X|Y) H(XY)表示 Y Y Y发生后, X X X的不确定度
互信息 I ( X ; Y ) I(X;Y) I(X;Y) I ( X ; Y ) = H ( X ) − H ( X ∣ Y ) I(X;Y) = H(X)-H(X|Y) I(X;Y)=H(X)H(XY); I ( Y ; X ) = H ( Y ) − H ( Y ∣ X ) I(Y;X) = H(Y)-H(Y|X) I(Y;X)=H(Y)H(YX); I ( X ; Y ) = I ( Y ; X ) I(X;Y) = I(Y;X) I(X;Y)=I(Y;X)互信息 I ( X ; Y ) I(X;Y) I(X;Y)表示 Y Y Y发生后, X X X的不确定度减少了 I ( X ; Y ) I(X;Y) I(X;Y)

关系图:
熵.JPG-37.1kB


  1. 曹雪虹, 张宗橙. 信息论与编码[J]. 2009. ↩︎

  2. Shannon C E. A mathematical theory of communication[J]. Bell System Technical Journal, 1948, 27(4):379-423. ↩︎

  • 34
    点赞
  • 106
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值