信息论基本概念(熵、联合熵、条件熵、相对熵、互信息)讲述与推导

最新推荐文章于 2024-08-19 23:14:11 发布

mlee1018

最新推荐文章于 2024-08-19 23:14:11 发布

阅读量1.6w

点赞数 7

分类专栏： ML 文章标签：信息论熵交叉熵

本文链接：https://blog.csdn.net/Recall_Tomorrow/article/details/79088414

版权

ML 专栏收录该内容

15 篇文章 1 订阅

订阅专栏

熵（Entropy）

熵是随机变量的不确定性的度量。设 $\ X\$ 是一个离散的随机变量，其取值空间为 $\ \mathcal{X}\$ ，概率密度函数 $p(x)=P(X=x), x\in\mathcal X$ ，则离散型随机变量 $\ X\$ 的信息熵 $\ H(X)\$ 为，

H (X) = - \sum x \in X p (x) log p (x), 对 数 log 所 用 的 底 一 般 为 2 ， 因 此 其 单 位 为 比 特 (b i t)

$H(X)=-\sum_{x\in\mathcal X}p(x)\log p(x),\ 对数\log所用的底一般为2，因此其单位为比特(bit)$

我们知道，如果 $X\sim{p(x)}$ ，则随机变量 $\ Y=g(X)\$ 的数学期望 $\ EY\$ 为，

E Y = E p g (X) = \sum x \in X g (x) p (x) ， 其 中 E p g (X) 表 示 函 数 g (X) 关 于 概 率 分 布 p (x) 的 期 望

$EY=E_pg(X)=\sum_{x\in\mathcal{X}}g(x)p(x)，其中E_pg(X)表示函数g(X)关于概率分布p(x)的期望$

特别地，当 $\ g(X)=-\log p(X)\$ 时，因此随机变量 $\ X\$ 的信息熵可以解释为 $H(X)=E\log{\frac{1}{p(X)}}$

另外我们知道，一条信息的信息量与其不确定性（概率）有直接的关系，由此我们可以得到，随机变量 $\ X=x\$ 的信息量为 $\ \log{\frac{1}{p(X=x)}}$ ，所以随机变量 $\ X\$ 的信息熵 $\ H(X)\$ 还可以解释为随机变量 $\ X\$ 的信息量的期望(平均信息量)

联合熵（Joint entropy）与条件熵（Conditional entropy）

如果随机变量 $\ (X, Y)\sim p(x, y)\$ ，那么其联合熵 $\ H(X, Y)\$ 为，

H (X, Y) = - \sum x \in X \sum y \in Y p (x, y) log p (x, y) = - E log p (X, Y)

$H(X, Y)=-\sum_{x\in\mathcal{X}}\sum_{y\in\mathcal{Y}}p(x, y)\log{p(x,y)}=-E\log{p(X,Y)}$

一样地，其条件熵 $\ H(Y|X)\$ 为，

H (Y | X) = \sum x \in X p (x) H (Y | X = x) = - \sum x \in X p (x) \sum y \in Y p (y | x) log p (y | x) = - \sum x \in X \sum y \in Y p (x, y) log p (y | x) = - E log p (Y | X)

$H(Y|X)=\sum_{x\in\mathcal{X}}p(x)H(Y|X=x)=-\sum_{x\in\mathcal{X}}p(x)\sum_{y\in\mathcal{Y}}p(y|x)\log p(y|x)=-\sum_{x\in\mathcal{X}}\sum_{y\in\mathcal{Y}}p(x,y)\log p(y|x)\\=-E\log p(Y|X)$

另外， $H(X, Y)=H(X)+H(Y|X)$ ，证明如下，

H (X, Y) = - \sum x \in X \sum y \in Y p (x, y) log p (x, y) = - \sum x \in X \sum y \in Y p (x, y) log p (x) p (y | x) = - \sum x \in X \sum y \in Y p (x, y) log p (x) - \sum x \in X \sum y \in Y p (x, y) log p (y | x) = - \sum x \in X p (x) log p (x) + H (Y | X) = H (X) + H (Y | X)

$H(X,Y)=-\sum_{x\in{\mathcal{X}}}\sum_{y\in\mathcal{Y}}p(x,y)\log{p(x,y)}=-\sum_{x\in\mathcal{X}}\sum_{y\in\mathcal{Y}}p(x,y)\log p(x)p(y|x)\\=-\sum_{x\in\mathcal{X}}\sum_{y\in\mathcal{Y}}p(x,y)\log p(x)-\sum_{x\in\mathcal{X}}\sum_{y\in\mathcal{Y}}p(x,y)\log p(y|x)\\=-\sum_{x\in\mathcal{X}}p(x)\log p(x)+H(Y|X)=H(X)+H(Y|X)$

其中，

\sum y \in Y p (x, y) = p (x) 为 离 散 型 随 机 变 量 的 联 合 分 布 变 为 边 缘 分 布

$\sum_{y\in\mathcal{Y}}p(x,y)=p(x)为离散型随机变量的联合分布变为边缘分布$

相对熵(交叉熵(Cross entropy))(Relative entropy)与互信息(Mutual information)

相对熵是两个随机分布之间距离的度量，相对熵 $\ D(p||q)\$ 度量当真实分布为 $\ p(x)\$ 而假定分布为 $\ q(x)\$ 时的差异性

D (p | | q) = \sum x \in X p (x) log p ( x ) q ( x )

$D(p||q)=\sum_{x\in\mathcal{X}}p(x)\log{\frac{p(x)}{q(x)}}$

互信息(信息增益)是一个随机变量包含另一个随机变量信息量的度量，也可以说是在给定一个随机变量的条件下，原随机变量的不确定性的减少量，

I (X; Y) = \sum x \in X \sum y \in Y p (x, y) log p ( x , y ) p ( x ) p ( y ) = D (p (x, y) | | p (x) p (y)) 即 互 信 息 I (X; Y) 为 联 合 分 布 p (x, y) 和 乘 积 分 布 p (x) p (y) 之 间 的 相 对 熵

$I(X;Y)=\sum_{x\in\mathcal{X}}\sum_{y\in\mathcal{Y}}p(x,y)\log \frac{p(x,y)}{p(x)p(y)}=D(p(x,y)||p(x)p(y))\\即互信息I(X;Y)为联合分布p(x,y)和乘积分布p(x)p(y)之间的相对熵$

另外，熵与互信息的关系，

I (X; Y) = H (Y) - H (Y | X) = H (X) - H (X | Y)

$I(X;Y)=H(Y)-H(Y|X)=H(X)-H(X|Y)$ ，证明如下，

I (X; Y) = \sum x \in X, y \in Y p (x, y) log p ( x , y ) p ( x ) p ( y ) = \sum x \in X, y \in Y p (x, y) log p ( x | y ) p ( x ) = - \sum x \in X, y \in Y p (x, y) log p (x) - (- \sum x \in X, y \in Y p (x, y) log p (x | y)) = H (X) - H (X | Y)

$I(X;Y)=\sum_{x\in\mathcal{X},y\in\mathcal{Y}}p(x,y)\log{\frac{p(x,y)}{p(x)p(y)}}=\sum_{x\in\mathcal{X},y\in\mathcal{Y}}p(x,y)\log{\frac{p(x|y)}{p(x)}}\\=-\sum_{x\in\mathcal{X},y\in\mathcal{Y}}p(x,y)\log{p(x)}-(-\sum_{x\in\mathcal{X},y\in\mathcal{Y}}p(x,y)\log{p(x|y)})=H(X)-H(X|Y)$