机器学习中的信息论

最新推荐文章于 2022-03-14 19:27:59 发布

theoreoeater

最新推荐文章于 2022-03-14 19:27:59 发布

阅读量1.1k

点赞数

分类专栏：机器学习文章标签：机器学习熵交叉熵

本文链接：https://blog.csdn.net/weixin_39837402/article/details/82720804

版权

机器学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

自信息量

一个事件的自信息量是该事件发生概率的负对数，事件发生的概率越大，自信息量越少，反之自信息量越多。也称不确定性函数，具有可加性。定义自信息量 $I(x)$ ：

I (x) = log (1 p ( x ))

$I(x)=\log\left(\frac{1}{p(x)}\right)$

香农信息熵

熵，热力学中表征物质状态的参量之一，用符号S表示，其物理意义是体系混乱程度的度量。
信息熵用来对信息进行量化度量，用来描述信源的不确定度。信息中排除了冗余后的平均信息量称为信息熵
信息熵是自信息量的期望，信息熵一般用来描述一个信息源，这个信息源可能有多个随机事件，所有随机事件发生的概率和为1.这个信息源的熵就是信息源产生的随机事件的自信息量的期望。信息熵越大系统越混乱，不确定性越大。定义信息熵H，单位为比特:

H = E [- log p i] = - \sum i = 1 n p i log p i

$H=E[-\log p_i]=-\sum_{i=1}^{n}p_{i}\log{p_i}$

联合熵

两个变量 $X$ 和 $Y$ 的联合信息熵定义为：

H (X, Y) = - \sum x \sum y P (x, y) log 2 P (x, y)

$H(X,Y)=-\sum_x\sum_yP(x,y)\log_2{P(x,y)}$
其中

x x $x$ 和

y

$y$ 是

X X $X$ 和

Y

$Y$ 的特定值，相应的

P(x,y) P ( x , y ) $P(x,y)$ 是这些值一起出现的联合概率，若

P(x,y)=0 P ( x , y ) = 0 $P(x,y)=0$ ，则

P(x,y)log2[P(x,y)] P ( x , y ) log 2 ⁡ [ P ( x , y ) ] $P(x,y)\log_2[P(x,y)]$ 定义为0.
同样的形式可以扩展至两个以上的变量的情况。

性质

大于每个独立的熵，一集变量的联合熵大于或等于这集变量中任一个变量的独立熵。

H (X, Y) \geq m a x [H (X), H (Y)]

$H(X,Y)\geq max[H(X),H(Y)]$
少于独立熵的和，该不等式有且只有在

X X $X$ 和

Y

$Y$ 均为统计独立时相等。

H (X, Y) \leq H (X) + H (Y)

$H(X,Y)\leq H(X)+H(Y)$

和其他熵测量手段的关系

条件熵：

H (X | Y) = H (X, Y) - H (Y)

$H(X|Y)=H(X,Y)-H(Y)$
互信息：

I (X; Y) = H (X) + H (Y) - H (X, Y)

$I(X;Y)=H(X)+H(Y)-H(X,Y)$

交叉熵

用来度量两个概率分布间的差异性信息。在信息论中，交叉熵是表示两个概率分布p,q，其中p为真实分布，q为非真实分布。假如按照真实分布p来衡量识别一个样本所需要的编码长度的期望为：

H (p) = \sum i p (i) \cdot log (1 p ( i ))

$H(p)=\sum_{i}p(i)\cdot\log\left(\frac{1}{p(i)}\right)$
但是用非真实分布q来表示来自真实分布p的平均编码长度，则是：

H (p, q) = \sum i p (i) log (1 q ( i ))

$H(p,q)=\sum_{i}p(i)\log\left(\frac{1}{q(i)}\right)$
此时将

H(p,q) H ( p , q ) $H(p,q)$ 称为交叉熵，交叉熵在机器学习中经常用作损失函数，用来衡量真实标记分布于模型预测分布的相似度。交叉熵作为损失函数的好处是使用sigmoid函数在梯度下降时能避免均方误差损失函数学习速率降低的问题，因为学习速率可以被输出的误差所控制。

相对熵

相对熵又称为 $KL$ 散度，信息散度。是描述两个概率分布 $P$ 和 $Q$ 差异的一种方法。它是非对称的即 $D(P\mid\mid Q)\neq D(Q\mid\mid P)$ 。在信息论中， $D(P\mid\mid Q)$ 表示当用概率分布 $Q$ 来拟合真实分布 $P$ 时产生的信息损耗，其中 $P$ 表示真实分布， $Q$ 表示 $P$ 的拟合分布。
设 $P(x)$ 和 $Q(x)$ 是 $X$ 取值的两个离散概率分布，则 $P$ 对 $Q$ 的相对熵为：

D (P ∣∣ Q) = \sum (P (x) \log \frac{P (x)}{Q (x)})

$D(P\mid\mid Q)=\sum (P(x)\log{\frac{P(x)}{Q(x)}})$
对于连续的随机变量，定义为：

D (P ∣ ∣ Q) = \int P (x) log P ( x ) Q ( x ) d (x)

$D(P\mid\mid Q)=\int P(x)\log{\frac{P(x)}{Q(x)}}d(x)$
相对熵是两个概率分布

P P $P$ 和

Q

$Q$ 差别的非对称性的度量。

互信息

互信息可以看成是一个随机变量中包含的关于另一个随机变量的信息量，或者说是一个随机变量由于已知另一个随机变量而减少的不肯定性。
设两个随机变量 $(X,Y)$ 的联合分布为 $p(x,y)$ ，边界分布分别为 $p(x)$ ， $p(y)$ ，互信息 $I(X,Y)$ 是联合分布 $p(x,y)$ 与乘积分布 $p(x)p(y)$ 的相对熵，即：