Softmax-with-Loss层的计算图 | Softmax梯度推导 | Loss损失函数

swjtu_pl

已于 2022-05-01 16:44:44 修改

阅读量1.2k

点赞数 4

文章标签：深度学习神经网络机器学习 python dnn

于 2022-05-01 16:35:47 首次发布

本文链接：https://blog.csdn.net/swjtu_pl/article/details/124528588

版权

Softmax-with-Loss层的计算图

概述

softmax 函数称为softmax 层，交叉熵误差称为Cross Entropy Error 层，两者的组合称为Softmax-with-Loss 层。Softmax-with-Loss 层可以画成所下图所示的计算图。

在这里插入图片描述

图A-1 的计算图中假定了一个进行3 类别分类的神经网络。从前面的层输入的是 $a_1, a_2, a_3)$ ，softmax 层输出 $y_1, y_2, y_3)$ 。此外，教师标签是 $t_1, t_2, t_3)$ ，Cross Entropy Error 层输出损失L。

如图A-1 所示，Softmax-with-Loss 层的反向传播的结果为 $y_1 − t_1, y_2 − t_2, y_3 − t_3)$ 。

正向传播

图A-1 的计算图中省略了Softmax 层和Cross Entropy Error 层的内容。这里，我们来画出这两个层的内容。
首先是Softmax层。softmax 函数可由下式表示。
$y_{k}=\frac{e^{a_{k}}}{\sum_{i=1}^{n}e^{a_{i}}}$
因此，用计算图表示Softmax层的话，则如图A-2 所示。图A-2 的计算图中，指数的和（相当于上式的分母）简写为S，最终的输出记为 $y_1, y_2, y_3)$ 。

在这里插入图片描述

接下来是Cross Entropy Error 层。交叉熵误差可由下式表示。
$L=-\sum_{k}t_{k}\log y_{k}$
根据上式，Cross Entropy Error 层的计算图可以画成图A-3 那样。
图A-3 的计算图很直观地表示出了上式，所以应该没有特别难的地方。下一节，我们将看一下反向传播。

在这里插入图片描述

反向传播

首先是Cross Entropy Error 层的反向传播。Cross Entropy Error 层的反向传播可以画成图A-4 那样。

在这里插入图片描述

求这个计算图的反向传播时，要注意下面几点。

反向传播的初始值（图A-4中最右边的值）是1（因为 $\frac{\partial L}{\partial L}=1$ ）。
“ ×”节点的反向传播将正向传播时的输入值翻转，乘以上游传过来的导数后，再传给下游。
“ +”节点将上游传来的导数原封不动地传给下游。
“ log”节点的反向传播遵从
$y=\log x$

$\frac{\partial y}{\partial x}=\frac{1}{x}$

遵从以上几点，就可以轻松求得Cross Entropy Error 的反向传播。结果 $(-\frac{t_1}{y_1},-\frac{t_2}{y_2},-\frac{t_3}{y_3})$ 是传给Softmax层的反向传播的输入。

下面是Softmax 层的反向传播的步骤。因为Softmax 层有些复杂，所以我们来逐一进行确认。

步骤1

在这里插入图片描述

前面的层（Cross Entropy Error 层）的反向传播的值传过来。

步骤2

在这里插入图片描述

”×“节点将正向传播的值翻转后相乘。这个过程中会进行下面的计算。
$-\frac{t_1}{y_1}e^{a_1} = -t_{1}\frac{S}{e^{a_1}}e^{a_1} = -t_{1}S$

步骤3

在这里插入图片描述

正向传播时若有分支流出，则反向传播时它们的反向传播的值会相加。因此，这里分成了三支的反向传播的值 $t_1S, −t_2S, −t_3S)$ 会被求和。然后，还要对这个相加后的值进行“/”节点的反向传播，结果为 $\frac{1}{S}(t_1+t_2+t_3)$ 。这里， $t_1,t_2,t_3)$ 是教师标签，也是one-hot 向量。one-hot 向量意味着 $t_1,t_2,t_3)$ 中只有一个元素是1，其余都是0。因此， $t_1,t_2,t_3)$ 的和为1。

步骤4

在这里插入图片描述

“+”节点原封不动地传递上游的值。

步骤5

在这里插入图片描述

“×”节点将值翻转后相乘。这里，式子变形时使用了
$y_1=\frac{e^{a_1}}{S}$

步骤6

在这里插入图片描述

“exp”节点中有下面的关系式成立。
$y=e^x$

$\frac{\partial y}{\partial x}=e^x$

根据这个式子，向两个分支的输入和乘以 $e^{a_{1}}$ 后的值就是我们要求的反向传播。用式子写出来的话，就是 $(\frac{1}{S}-\frac{t_1}{e^{a_1}})e^{a_1}$ ，整理之后为 $y_1 − t_1$ 。综上，我们推导出，正向传播时输入是 $a_1$ 的节点，它的反向传播是 $y_1 − t_1$ 。剩下的 $a_2$ 、 $a_3$ 也可以按照相同的步骤求出来（结果分别为 $y_2 − t_2$ 和 $y_3 − t_3$ ）。此外，除了这里介绍的3 类别分类外，对于n类别分类的情况，也可以推导出同样的结果。