信息量、信息熵、交叉熵、KL散度以及交叉损失函数的关系与理解

最新推荐文章于 2024-03-04 19:00:00 发布

摩天崖FuJunWANG

最新推荐文章于 2024-03-04 19:00:00 发布

阅读量2.4k

点赞数 1

分类专栏：数学算法巩固算法文章标签：信息熵机器学习深度学习人工智能概率论

本文链接：https://blog.csdn.net/weixin_41806489/article/details/109190353

版权

算法同时被 3 个专栏收录

31 篇文章 9 订阅

订阅专栏

数学

20 篇文章 0 订阅

订阅专栏

算法巩固

13 篇文章 0 订阅

订阅专栏

在这里插入图片描述

记事件 $p$ ,在各个状态下 $x_i$ 的概率为 $p(x_i)$ 。(假设共n个状态）

1、信息量：概率越大信息量越小。
$log(p(x_i))$

2、信息熵：信息量的期望值：
$\sum\limits_{i = 1}^n {p({x_i})} ( - log(p({x_i})))$

3、交叉熵：假设我们不知道 $p$ 的概率分布，我们用一个概率分布 $q$ 去近似， $q$ 在各个状态下的概率。从采样上来看，我们能够看到事件的真实表现概率，那么用 $q$ 来近似 $p$ 的信息量为交叉熵。
$\sum\limits_{i = 1}^n {p({x_i})} ( - log(q({x_i})))$
4、 KL散度：我们可以把 $H (p, q)$ 看成一个预测值， $H (p)$ 为真实值，是可以观察到的是个常值，预测值与真实值之间的差值，就是信息的损失也叫KL散度。
$\begin{array}{l} KL(p,q) = H(p,q) - H(p)\\ {\rm{ = }}\sum\limits_{i = 1}^n {p({x_i})} ( - log(q({x_i}))) - \sum\limits_{i = 1}^n {p({x_i})} ( - log(p({x_i})))\\ {\rm{ = }}\sum\limits_{i = 1}^n {p({x_i})} \frac{{p({x_i})}}{{q({x_i})}} \end{array}$
为什么不反过来减：
答：一般作为损失函数我们希望损失函数越小越好，在这个问题中，在对p(x)进行逼近时，由于我们已经进行了one-hot编码，所以只有真实标签的那一项对于KL散度是有贡献的即：
$\begin{array}{l} KL(p,q) = H(p,q) - H(p)\\ {\rm{ = }}\sum\limits_{i = 1}^n {p({x_i})} ( - log(q({x_i}))) - \sum\limits_{i = 1}^n {p({x_i})} ( - log(p({x_i})))\\ {\rm{ = }}\sum\limits_{i = 1}^n {p({x_i})} \log (\frac{{p({x_i})}}{{q({x_i})}})-->总是为正\\ {\rm{ = }}p({x_i})log(\frac{{p({x_i})}}{{q({x_i})}}),(p({x_i}) = 1)\\ {\rm{ = log(}}\frac{1}{{q({x_i})}})-->真实标签处的估计 \end{array}$
对于上式当然分母为1是KL散度最小，也就是在预测过程中，我们希望在我们想要预测的标签上，概率越接近于1越好！。
至此，信息量，信息熵、交叉熵、KL散度与交叉熵损失函数的关系总结完成了。

摩天崖FuJunWANG

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
信息量、信息熵、交叉熵、KL散度以及交叉损失函数的关系与理解

记事件ppp,在各个状态下xix_ixi 的概率为p(xi)p(x_i)p(xi) 。(假设共n个状态）1、信息量：概率越大信息量越小。−log(p(xi))-log(p(x_i))−log(p(xi))2、信息熵：信息量的期望值：H(p)=∑i=1np(xi)(−log(p(xi)))H(p) = \sum\limits_{i = 1}^n {p({x_i})} ( - log(p({x_i})))H(p)=i=1∑np(xi)(−log(p(xi)))3、交叉熵：.
复制链接

扫一扫