交叉熵损失怎么来的

最新推荐文章于 2022-09-03 15:37:15 发布

v-space

最新推荐文章于 2022-09-03 15:37:15 发布

阅读量187

点赞数

分类专栏：机器学习文章标签：机器学习信息熵

本文链接：https://blog.csdn.net/weixin_42069606/article/details/105746409

版权

机器学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

引言：信息是用来消除随机不确定的东西 —— 香农

1.信息熵

减少不确定性越大、信息量越大。信息量大小与信息发生的概率成反比。
信息量：
事件x的信息量： $I(x)=-ln(p(x))\qquad(p(x)为事件x的发生概率)\qquad(1)$
信息熵：所有信息量的期望
$H(X)=-\sum\limits_{i=1}^n p(x_i)ln(p(x_i))\qquad(X=x_1,x_2,...,x_n)\qquad(2)$

2.相对熵（KL散度）

衡量两个概率分布的差异，越小表示越接近。
$D_{KL}(X)=\sum\limits_{i=1}^n p(x_i)ln(\frac{p(x_i)}{q(x_i)})\qquad(X=x_1,x_2,...,x_n)\qquad(3)$
$p(x_i)$ 和 $q(x_i)$ 为分别第i个事件的真实概率和预测概率
则由(3)式：
$\begin{aligned} KL散度 &=D_{KL}(X)\\ &= \sum\limits_{i=1}^n p(x_i)ln(\frac{p(x_i)}{q(x_i)})\\ &= \sum\limits_{i=1}^n p(x_i)ln(p(x_i)- \sum\limits_{i=1}^n p(x_i)ln(q(x_i)\\ &=-{H(x)}+{[-\sum\limits_{i=1}^n p(x_i)ln(q(x_i)]}\\ &={[-\sum\limits_{i=1}^n p(x_i)ln(q(x_i))]}- {H(x)}\\ &=交叉熵-信息熵 \end{aligned}$
由于信息熵真值是固定的，因此只用计算交叉熵即可，而且相比KL散度计算更简单。

交叉熵损失：

$CE_{loss}=-\frac{1}{m}\sum\limits_{i=1}^m\sum\limits_{j=1}^n p(x_{ij})ln(q(x_{ij}))\quad(m为样本个数，n为类别数)$

参考：
交叉熵损失函数原理详解 [CSDN]

v-space

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
交叉熵损失怎么来的

引言：信息是用来消除随机不确定的东西 —— 香农1.信息熵减少不确定性越大、信息量越大。信息量大小与信息发生的概率成反比。信息量：事件x的信息量：I(x)=−ln(p(x))(p(x)为事件x的发生概率)(1)I(x)=-ln(p(x))\qquad(p(x)为事件x的发生概率)\qquad(1)I(x)=−ln(p(x))(p(x)为事件x的发生概率)(1)信息熵：所有信息量的期望...
复制链接

扫一扫