信息论(熵、条件熵、联合熵、互信息)

熵用于描述一个随机变量的不确定性的大小,熵越大说明该随机变量的不确定性增加,包含的信息量越大(越是确定的事件所含有的信息量越小,必然事件的熵为0)。
H ( X ) = − ∑ x ∈ X p ( x )    l o g    p ( x ) (1) H(X)=-\sum_{x\in X}p(x)\;log\;p(x)\tag{1} H(X)=xXp(x)logp(x)(1)

抛硬币,抛到某一面的熵: H ( X ) = − 1 2 l o g 1 2 − 1 2 l o g 1 2 = 1 H(X)=-\frac{1}{2}log\frac{1}{2}-\frac{1}{2}log\frac{1}{2}=1 H(X)=21log2121log21=1
掷骰子,掷到某一点的熵: H ( Y ) = − 1 6 l o g 1 6 − 1 6 l o g 6 6 . . . − 1 6 l o g 1 6 = l o g ( 6 ) H(Y)=-\frac{1}{6}log\frac{1}{6}-\frac{1}{6}log\frac{6}{6}...-\frac{1}{6}log\frac{1}{6}=log(6) H(Y)=61log6161log66...61log61=log(6)
1 < l o g ( 6 ) 1<log(6) 1<log(6)表明抛硬币比掷骰子的不确定性小,含有的信息量更小;从计算机存储的意义上来讲,如果用One-hot编码方式,记录抛硬币的结果需要用到 1 b i t 1bit 1bit的编码长度,而记录掷骰子需要 l o g ( 6 ) ≈ 3 b i t log(6)≈3bit log(6)3bit的编码长度。熵是平均意义上对随机变量的最短编码长度

对式(1)进行进一步的推导得到: H ( X ) = − ∑ x ∈ X p ( x )    l o g    p ( x ) = E p ( X ) [ l o g 1 p ( X ) ] (2) H(X)=-\sum_{x\in X}p(x)\;log\;p(x)=E_{p(X)}[log\frac{1}{p(X)}]\tag{2} H(X)=xXp(x)logp(x)=Ep(X)[logp(X)1](2)
熵也是随机变量X的求函数 l o g 1 p ( X ) log\frac{1}{p(X)} logp(X)1的期望
综上,熵有以下四个性质:
  1. 熵描述一个随机变量的不确定性的大小;
  2. 熵越大表明随机变量含有的信息量越大;
  3. 熵是平均意义上对随机变量的最短编码长度;
  4. 熵也是随机变量X的求函数 l o g 1 p ( X ) log\frac{1}{p(X)} logp(X)1的期望。

互信息

熵表示一个随机变量的信息量的大小,互信息用来表示两个随机变量之间共同含有的信息,互信息描述了随机变量之间更高阶的相关程度,相关系数只描述随机变量之间的线性相关程度。 I ( X ; Y ) = ∑ x ∈ X ∑ y ∈ Y p ( x , y ) l o g p ( x , y ) p ( x ) p ( y ) (3) I(X;Y)=\sum_{x\in X}\sum_{y\in Y}p(x,y)log\frac{p(x, y)}{p(x)p(y)}\tag{3} I(X;Y)=xXyYp(x,y)logp(x)p(y)p(x,y)(3)
其中 p ( x ) , p ( y ) p(x),p(y) p(x),p(y)为边缘分布, p ( x , y ) p(x, y) p(x,y)为联合分布;
对式(3)进一步推导得: I ( X ; Y ) = ∑ x ∈ X ∑ y ∈ Y p ( x , y ) l o g p ( x , y ) p ( x ) p ( y ) = ∑ x ∈ X ∑ y ∈ Y p ( x , y ) l o g p ( y ) p ( x ∣ y ) p ( x ) p ( y ) = ∑ x ∈ X ∑ y ∈ Y p ( x , y ) l o g p ( x ∣ y ) p ( x ) = ∑ x ∈ X ∑ y ∈ Y p ( x , y ) l o g    p ( x ∣ y ) − ∑ x ∈ X ∑ y ∈ Y p ( x , y ) l o g    p ( x ) = ∑ x ∈ X ∑ y ∈ Y p ( y ) p ( x ∣ y ) l o g    p ( x ∣ y ) − ∑ x ∈ X ∑ y ∈ Y p ( x , y ) l o g    p ( x ) = ∑ x ∈ X p ( x ∣ y ) l o g    p ( x ∣ y ) ( ∑ y ∈ Y p ( y ) ) − ∑ x ∈ X l o g    p ( x ) ( ∑ y ∈ Y p ( x , y ) ) = ∑ x ∈ X p ( x ∣ y ) l o g    p ( x ∣ y ) − ∑ x ∈ X l o g    p ( x ) p ( x ) = H ( X ) − H ( X ∣ Y ) (4) I(X;Y)=\sum_{x\in X}\sum_{y\in Y}p(x,y)log\frac{p(x, y)}{p(x)p(y)}=\sum_{x\in X}\sum_{y\in Y}p(x,y)log\frac{p(y)p(x|y)}{p(x)p(y)}=\sum_{x\in X}\sum_{y\in Y}p(x,y)log\frac{p(x|y)}{p(x)}\\=\sum_{x\in X}\sum_{y\in Y}p(x,y)log\;p(x|y)-\sum_{x\in X}\sum_{y\in Y}p(x,y)log\;p(x)\\=\sum_{x\in X}\sum_{y\in Y}p(y)p(x|y)log\;p(x|y)-\sum_{x\in X}\sum_{y\in Y}p(x,y)log\;p(x)\\=\sum_{x\in X}p(x|y)log\;p(x|y)(\sum_{y\in Y}p(y))-\sum_{x\in X}log\;p(x)(\sum_{y\in Y}p(x,y))\\=\sum_{x\in X}p(x|y)log\;p(x|y)-\sum_{x\in X}log\;p(x)p(x)=H(X)-H(X|Y)\tag{4} I(X;Y)=xXyYp(x,y)logp(x)p(y)p(x,y)=xXyYp(x,y)logp(x)p(y)p(y)p(xy)=xXyYp(x,y)logp(x)p(xy)=xXyYp(x,y)logp(xy)xXyYp(x,y)logp(x)=xXyYp(y)p(xy)logp(xy)xXyYp(x,y)logp(x)=xXp(xy)logp(xy)(yYp(y))xXlogp(x)(yYp(x,y))=xXp(xy)logp(xy)xXlogp(x)p(x)=H(X)H(XY)(4)
根据式(4)可知, H ( X ) H(X) H(X)表示 X X X含有的信息量, H ( X ∣ Y ) H(X|Y) H(XY)表示知道事件Y后X含有的信息量。 H ( X ) − H ( X ∣ Y ) H(X)-H(X|Y) H(X)H(XY表示知道Y事件后,X含有信息量的减少量。

综上,互信息拥有以下的性质:
  1. 互信息表示两个随机变量共同拥有的信息;
  2. 互信息刻画了两个随机变量之间的相关性;
  3. 互信息 I ( X ; Y ) I(X;Y) I(X;Y)表示知道Y事件后,X含有信息量的减少量;
  4. 两个独立变量之间的互信息为0;

相对熵(KL散度)

互信息用来描述两个随机变量之间共同拥有的信息,相对熵用来量化两个随机变量的分布函数之间的差异程度,相对熵用于衡量两个分布之间的距离,相对熵越大,表明两个分布距离越远,相对熵为0,表示两分布相同。
D ( p ∣ ∣ q ) = ∑ x ∈ X p ( x ) l o g p ( x ) q ( x ) (5) D(p||q)=\sum_{x\in X}p(x)log\frac{p(x)}{q(x)}\tag{5} D(p∣∣q)=xXp(x)logq(x)p(x)(5)
其中 q ( x ) , p ( x ) q(x),p(x) q(x),p(x)表示两个概率密度函数。
互信息和相对熵之间的关系 I ( X ; Y ) = ∑ x ∈ X ∑ y ∈ Y p ( x , y ) l o g p ( x , y ) p ( x ) p ( y ) = D ( p ( x , y ) ∣ ∣ p ( x ) p ( y ) ) (6) I(X;Y)=\sum_{x\in X}\sum_{y\in Y}p(x,y)log\frac{p(x, y)}{p(x)p(y)}=D(p(x,y)||p(x)p(y))\tag{6} I(X;Y)=xXyYp(x,y)logp(x)p(y)p(x,y)=D(p(x,y)∣∣p(x)p(y))(6)
式(6)表明互信息描述联合分布 p ( x , y ) p(x,y) p(x,y)与边缘分布之积 p ( x ) p ( y ) p(x)p(y) p(x)p(y)的差异程度,如果差异程度为0,表示 p ( x , y ) = p ( x ) p ( y ) p(x,y)=p(x)p(y) p(x,y)=p(x)p(y),也就是两个随机变量相互独立。

联合熵

联合熵用来表示X和Y一起发生时,产生的信息量。

H ( X , Y ) = − ∑ x ∈ X ∑ y ∈ Y p ( x , y ) l o g    p ( x , y ) = E p ( x , y ) [ 1 p ( x , y ) ] (7) H(X,Y)=-\sum_{x\in X}\sum_{y\in Y}p(x,y)log\;p(x,y)=E_{p(x,y)}[\frac{1}{p(x,y)}]\tag{7} H(X,Y)=xXyYp(x,y)logp(x,y)=Ep(x,y)[p(x,y)1](7)

条件熵

条件熵 H ( X ∣ Y ) H(X|Y) H(XY)用来表示Y已经发生的前提下,再发生X所产生的信息量。

H ( X ∣ Y ) = − ∑ x ∈ X ∑ y ∈ Y p ( x , y ) l o g    p ( x ∣ y ) = E p ( x , y ) [ 1 p ( x ∣ y ) ] (8) H(X|Y)=-\sum_{x\in X}\sum_{y\in Y}p(x,y)log\;p(x|y)=E_{p(x,y)}[\frac{1}{p(x|y)}]\tag{8} H(XY)=xXyYp(x,y)logp(xy)=Ep(x,y)[p(xy)1](8)

联合熵和条件熵的关系

H ( X , Y ) = H ( Y ) + H ( X ∣ Y ) = H ( X ) + H ( Y ∣ X ) (9) H(X,Y)=H(Y)+H(X|Y)=H(X)+H(Y|X)\tag{9} H(X,Y)=H(Y)+H(XY)=H(X)+H(YX)(9)
表示X和Y一起发生产生的信息量等于Y发生的信息量加上在Y发生的前提下再发生X新增的信息量,也等于X发生产生的信息量加上在X发生的前提下再发生Y产生的新增信息量。

互信息和联合熵的关系

I ( X ; Y ) = H ( X ) + H ( Y ) − H ( X , Y ) (10) I(X;Y)=H(X)+H(Y)-H(X,Y)\tag{10} I(X;Y)=H(X)+H(Y)H(X,Y)(10)
在这里插入图片描述

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

CV科研随想录

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值