softmax loss层的求导反向传播

最新推荐文章于 2025-03-18 12:10:32 发布

keep_forward

最新推荐文章于 2025-03-18 12:10:32 发布

阅读量8.2k

点赞数 6

分类专栏： deeplearning 文章标签： softmax loss 求导反向传播

本文链接：https://blog.csdn.net/b876144622/article/details/80958092

版权

deeplearning 专栏收录该内容

10 篇文章

订阅专栏

深度学习中的分类网络，一般都是使用softmax和交叉熵作为损失函数。关于softmax和cross entropy的介绍和解释可以详见我的另一篇博客softmax loss。这篇博客仅解释如何对softmax loss层进行求导反向传播。

假设网络最后一层的输出为 $\mathbf{z}$ ，经过softmax后输出为 $\mathbf{p}$ ，真实标签为 $\mathbf{y}$ （one hot编码），则损失函数为：

$\sum_{i=1}^{C} y_i \log p_i$

其中 $C$ 表示共有 $C$ 个类。

对softmax loss层求导，即求 $\frac{\partial L}{\partial \mathbf{z}}$ ，可以通过求 $\frac{\partial L}{\partial z_j}$ 进行说明。

$\begin{aligned} \frac {\partial L}{\partial z_j} &= - \sum_{i=1}^{C} y_i \frac{\partial \log p_i}{\partial z_j} \\ &= - \sum_{i=1}^{C} \frac{y_i}{p_i} \frac{\partial p_i}{\partial z_j} \end{aligned}$

因为 $\mathbf{p}$ 是 $\mathbf{z}$ 经过softmax函数后的输出，即 $\mathbf{p} = softmax(\mathbf{z})$ 。

$p_i = \frac {e^{z_i}}{\sum_{k=1}^{C} e^{z_k}}$

$\frac{\partial p_i}{\partial z_j}$ 的求解分为两种情况，即$i = j $和$ i \neq j$，分别进行推导，如下：

$\begin{aligned} i = j 时：\\ \frac{\partial p_i}{\partial z_j} &= \frac{\partial p_j}{\partial z_j} \\ &= \frac{\partial \frac {e^{z_j}}{\sum_{k=1}^{C} e^{z_k}}}{\partial z_j} \\ &= \frac {e^{z_j}}{\sum_{k=1}^{C} e^{z_k}} + e^{z_j} \times (-1) \times {(\frac{1}{\sum_{k=1}^{C} e^{z_k}})}^2 \times e^{z_j}\\ &= p_j - p_j^2 \\ &= p_j(1-p_j) \end{aligned}$

$\begin{aligned} i \neq j 时：\\ \frac{\partial p_i}{\partial z_j} &= e^{z_i} \times (-1) \times {(\frac{1}{\sum_{k=1}^{C} e^{z_k}})}^2 \times e^{z_j}\\ &= -p_ip_j \end{aligned}$

故有，
$\begin{aligned} \frac{\partial L}{\partial z_j} &= -\frac{y_j}{p_j}p_j(1-p_j) - \sum_{i\neq j} \frac{y_i}{p_i}(-p_ip_j) \\ &= -y_i + p_j \sum_{i=1}^{C} y_i \\ &= p_j - y_j \end{aligned}$