从softmax到交叉熵再到softmax的反向梯度求解

最新推荐文章于 2024-05-13 20:32:49 发布

荒山之夜

最新推荐文章于 2024-05-13 20:32:49 发布

阅读量310

点赞数

分类专栏： NLP复习

本文链接：https://blog.csdn.net/qq_29134801/article/details/93319966

版权

NLP复习专栏收录该内容

11 篇文章 0 订阅

订阅专栏

交叉熵的来龙去脉

这个链接是一个很好的交叉熵的使用的连接，建议阅读前，先学习这一篇中的内容。
https://blog.csdn.net/tsyccnh/article/details/79163834

首先，我们要明了一下，什么是信息量，信息量一般用什么表示？
$log(p(x_i))$
其过程是将log进行了一个倒置。
当 $p(x_i)$ 越小，就越小，就越说明这个事情代表的意义越大，发生少的事情突然发生了，就能带来比较大的信息量。
用-log曲线，恰巧能将这个过程扭曲一下。

其次，信息熵是什么东西呢？
信息熵是当前这个变量的期望。
它的计算方式是 $p(x_i)log(p(x_i))$
当然 $x_i$ 不可能只有一个，那么就要考虑到求和问题： $\sum^n_i-p(x_i)log(p(x_i))$
之所以这样相加，是要解决所有信息熵的问题

最后，KL散度是什么东西呢？
KL散度是衡量在做什么呢？
$D_{KL}(p||q) = \displaystyle\sum_{i=1}^np(x_{i})log(\frac{p(x_{i})}{q(x_{i})})$
其中 $p(x_i)$ 是真正的分布，而 $q(x_{i})$ 可以理解问用算法学习出来的分布。
那么，在这个过程中，我们可以意识到，当分布越接近，就p/q越接近1，因而其值理论上也就越小。

接下来，可以对KL散度进行一个变形，那KL散度就发生了变形。
它会做什么呢？
$D_{KL}(p||q)=\displaystyle\sum^{n}_{i=1}p(x_i)log(p(x_i)) -\displaystyle\sum^{n}_{x_i}p(x_i)log(q(x_i))$
这个时候，我们可以发现前半部分， $\displaystyle\sum^{n}_{i=1}p(x_i)log(p(x_i))$ 其实就是熵。

由于对于原始分布来说，这部分的熵是肯定不变的，所以我们不再考虑这部分的信息。
而后者的信息就足为珍贵了，所以我们只要关注式子的后半部分就行。
$\displaystyle\sum^{n}_{x_i}p(x_i)log(q(x_i))$

在线型回归问题中，一般用 $\frac{1}{2m}\displaystyle\sum^{m}_{i=1}(y_i-\overline{y})^2$ ,也就是平均方差误差做loss.

那对于分类问题呢？
对于分类问题，其实只分为两类。
$\sum^{n}_{i=1}y_ilog(\hat y_i)$
对于一个batch来说，，
$-\frac{1}{m} \sum_{j=1}^{m} \sum_{i=1}^{n}y_{ij} log( \hat {y_{ij}})$
其中m代表每个batch的数量，而n代表所有种类的数量。
其逻辑是，针对某一值，计算其关于所有种类的期望，希望这个值尽可能的小。

多分类中的交叉熵的使用

有的分类任务被叫做多分类，因为一张图片可能会归属于好几个类。
那个时候，其实pred已经不能通过softmax来计算了。
而是针对于每个label用pred来计算，再进行计算简化。
则
$-ylog(\hat{y})-(1-y)log(l-\hat{y})$
这种情况只针对一一个logistic输出的类别，而最后还是要考虑到总共的数量和总共的batch的数量。

那么什么是softmax函数呢？
就是这个玩意儿。
在这里插入图片描述
其中softmax的用法就是 $S_i=\frac{e^i}{\sum_je^j}$

如上图所示，就是一个很普通的softmax的使用过程。

接下来进行softmax的反向梯度求导
这部分简易参考[手打例子，一步一步带你去softmax]中的softmax部分(https://www.jianshu.com/p/ffa51250ba2e)

假设经过logits后，进入了一个

荒山之夜

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
从softmax到交叉熵再到softmax的反向梯度求解

交叉熵的来龙去脉这个链接是一个很好的交叉熵的使用的连接，建议阅读前，先学习这一篇中的内容。https://blog.csdn.net/tsyccnh/article/details/79163834首先，我们要明了一下，什么是信息量，信息量一般用什么表示？−log(p(xi))-log(p(x_i))−log(p(xi))其过程是将log进行了一个倒置。当p(xi)p(x_i)p(x...
复制链接

扫一扫