信息论（熵、条件熵、联合熵、互信息）

CV科研随想录

已于 2023-12-25 14:52:55 修改

阅读量1k

点赞数

文章标签：概率论机器学习

于 2021-10-16 22:07:07 首次发布

本文链接：https://blog.csdn.net/weixin_40957452/article/details/120803183

版权

熵

熵用于描述一个随机变量的不确定性的大小，熵越大说明该随机变量的不确定性增加，包含的信息量越大（越是确定的事件所含有的信息量越小，必然事件的熵为0）。
$H(X)=-\sum_{x\in X}p(x)\;log\;p(x)\tag{1}$

抛硬币,抛到某一面的熵： $H(X)=-\frac{1}{2}log\frac{1}{2}-\frac{1}{2}log\frac{1}{2}=1$
掷骰子，掷到某一点的熵： $H(Y)=-\frac{1}{6}log\frac{1}{6}-\frac{1}{6}log\frac{6}{6}...-\frac{1}{6}log\frac{1}{6}=log(6)$
$1 < l o g (6)$ 表明抛硬币比掷骰子的不确定性小，含有的信息量更小；从计算机存储的意义上来讲，如果用One-hot编码方式，记录抛硬币的结果需要用到 $1 bi t$ 的编码长度，而记录掷骰子需要 $l o g (6) \approx 3 bi t$ 的编码长度。熵是平均意义上对随机变量的最短编码长度。

对式（1）进行进一步的推导得到： $H(X)=-\sum_{x\in X}p(x)\;log\;p(x)=E_{p(X)}[log\frac{1}{p(X)}]\tag{2}$
熵也是随机变量X的求函数 $log\frac{1}{p(X)}$ 的期望。
综上，熵有以下四个性质：
1. 熵描述一个随机变量的不确定性的大小；
2. 熵越大表明随机变量含有的信息量越大；
3. 熵是平均意义上对随机变量的最短编码长度；
4. 熵也是随机变量X的求函数 $log\frac{1}{p(X)}$ 的期望。

互信息

熵表示一个随机变量的信息量的大小，互信息用来表示两个随机变量之间共同含有的信息，互信息描述了随机变量之间更高阶的相关程度，相关系数只描述随机变量之间的线性相关程度。 $I(X;Y)=\sum_{x\in X}\sum_{y\in Y}p(x,y)log\frac{p(x, y)}{p(x)p(y)}\tag{3}$
其中 $p (x), p (y)$ 为边缘分布， $p (x, y)$ 为联合分布；
对式（3）进一步推导得： $I(X;Y)=\sum_{x\in X}\sum_{y\in Y}p(x,y)log\frac{p(x, y)}{p(x)p(y)}=\sum_{x\in X}\sum_{y\in Y}p(x,y)log\frac{p(y)p(x|y)}{p(x)p(y)}=\sum_{x\in X}\sum_{y\in Y}p(x,y)log\frac{p(x|y)}{p(x)}\\=\sum_{x\in X}\sum_{y\in Y}p(x,y)log\;p(x|y)-\sum_{x\in X}\sum_{y\in Y}p(x,y)log\;p(x)\\=\sum_{x\in X}\sum_{y\in Y}p(y)p(x|y)log\;p(x|y)-\sum_{x\in X}\sum_{y\in Y}p(x,y)log\;p(x)\\=\sum_{x\in X}p(x|y)log\;p(x|y)(\sum_{y\in Y}p(y))-\sum_{x\in X}log\;p(x)(\sum_{y\in Y}p(x,y))\\=\sum_{x\in X}p(x|y)log\;p(x|y)-\sum_{x\in X}log\;p(x)p(x)=H(X)-H(X|Y)\tag{4}$
根据式（4）可知， $H (X)$ 表示 $X$ 含有的信息量， $H (X ∣ Y)$ 表示知道事件Y后X含有的信息量。 $H (X) - H (X ∣ Y ）$ 表示知道Y事件后，X含有信息量的减少量。

综上，互信息拥有以下的性质：
1. 互信息表示两个随机变量共同拥有的信息；
2. 互信息刻画了两个随机变量之间的相关性；
3. 互信息 $I (X; Y)$ 表示知道Y事件后，X含有信息量的减少量;
4. 两个独立变量之间的互信息为0；

相对熵（KL散度）

互信息用来描述两个随机变量之间共同拥有的信息，相对熵用来量化两个随机变量的分布函数之间的差异程度，相对熵用于衡量两个分布之间的距离，相对熵越大，表明两个分布距离越远，相对熵为0，表示两分布相同。
$D(p||q)=\sum_{x\in X}p(x)log\frac{p(x)}{q(x)}\tag{5}$
其中 $q (x), p (x)$ 表示两个概率密度函数。
互信息和相对熵之间的关系： $I(X;Y)=\sum_{x\in X}\sum_{y\in Y}p(x,y)log\frac{p(x, y)}{p(x)p(y)}=D(p(x,y)||p(x)p(y))\tag{6}$
式（6）表明互信息描述联合分布 $p (x, y)$ 与边缘分布之积 $p (x) p (y)$ 的差异程度，如果差异程度为0，表示 $p (x, y) = p (x) p (y)$ ，也就是两个随机变量相互独立。

联合熵

联合熵用来表示X和Y一起发生时，产生的信息量。

$H(X,Y)=-\sum_{x\in X}\sum_{y\in Y}p(x,y)log\;p(x,y)=E_{p(x,y)}[\frac{1}{p(x,y)}]\tag{7}$

条件熵

条件熵 $H (X ∣ Y)$ 用来表示Y已经发生的前提下，再发生X所产生的信息量。

$H(X|Y)=-\sum_{x\in X}\sum_{y\in Y}p(x,y)log\;p(x|y)=E_{p(x,y)}[\frac{1}{p(x|y)}]\tag{8}$

联合熵和条件熵的关系

$H(X,Y)=H(Y)+H(X|Y)=H(X)+H(Y|X)\tag{9}$
表示X和Y一起发生产生的信息量等于Y发生的信息量加上在Y发生的前提下再发生X新增的信息量，也等于X发生产生的信息量加上在X发生的前提下再发生Y产生的新增信息量。

互信息和联合熵的关系

$I(X;Y)=H(X)+H(Y)-H(X,Y)\tag{10}$
在这里插入图片描述

CV科研随想录

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
打赏
0
评论
信息论（熵、条件熵、联合熵、互信息）

熵熵用于描述一个随机变量的不确定性的大小，熵越大说明该随机变量的不确定性增加，包含的信息量越大（越是确定的事件所含有的信息量越小，必然事件的熵为0）。H(X)=−∑x∈Xp(x) log p(x)(1)H(X)=-\sum_{x\in X}p(x)\;log\;p(x)\tag{1}H(X)=−x∈X∑p(x)logp(x)(1)抛硬币,抛到某一面的熵：H(X)=−12log12−12log12=1H(X)=-\frac{1}{2}log\frac{1}{2}-\frac{1}{2}log\f
复制链接

扫一扫