softmax函数的反向传播求导

最新推荐文章于 2024-07-19 16:50:04 发布

做技术不可耻

最新推荐文章于 2024-07-19 16:50:04 发布

阅读量827

点赞数 1

文章标签：深度学习

本文链接：https://blog.csdn.net/qq_40019838/article/details/102791216

版权

吴恩达老师在深度学习视频中讲解 $\mathrm{softmax}$ 函数时，直接给出了损失函数对 $z^{[L]}$ 的导数，这里推导一下计算过程。

假设输出层有 $n$ 个神经元，使用 $\mathrm{softmax}$ 函数后神经网络的输出为
$\hat{y}_j=\frac{\exp(z^{[L]}_j)}{\sum_{i=1}^n\exp(z^{[L]}_i)}\quad j=1,2,...,n$
使用交叉熵损失函数，定义为
$L(\hat{y}, y)=-\sum_{i=1}^{n}y_i\log(\hat{y_i})$
从 $\mathrm{softmax}$ 函数的定义不难看出，对于每一个 $z^{[L]}_j$ ，它对 $\hat{y}$ 的每个元素都有贡献。那么在进行反向传播时， $\hat{y}$ 的每个元素都要计算对 $z^{[L]}_j$ 的导数，再分别乘以损失函数对 $\hat y$ 每个元素的导数，然后求和。也即
$\frac{\partial L}{\partial z^{[L]}_j}=\sum_{i=1}^{n}\frac{\partial L}{\partial \hat{y_i}}\frac{\partial \hat{y_i}}{\partial z^{[L]}_j}$
对于等式右侧的前一部分，显然
$\frac{\partial L}{\partial \hat{y_i}}=-\frac{y_i}{\hat{y_i}}$
对于后一部分，需要分为两种情况讨论

当 $i = j$ 时：
$\begin{aligned} \frac{\partial\hat{y_j}}{\partial z^{[L]}_j} &=\frac{\exp{z^{[L]}_j}(\sum_{i=1}^n\exp(z^{[L]}_i))-(\exp{z^{[L]}_j})^2}{(\sum_{i=1}^n\exp(z^{[L]}_i))^2}\\ &=\hat{y_j}(1-\hat{y_j}) \end{aligned}$
当 $i\neq j$ 时：
$\begin{aligned} \frac{\partial\hat{y_i}}{\partial z^{[L]}_j} &=\frac{0-\exp{z^{[L]}_i\exp{z^{[L]}_j}}}{(\sum_{i=1}^n\exp(z^{[L]}_i))^2}\\ &=-\hat{y_i}\hat{y_j} \end{aligned}$

那么
$\begin{aligned} \frac{\partial L}{\partial z^{[L]}_j}&=\hat{y_j}(1-\hat{y_j})(-\frac{y_j}{\hat{y_j}})+\sum_{i\neq j}-\hat{y_i}\hat{y_j}(-\frac{y_i}{\hat{y_i}})\\ &=-y_j(1-\hat{y_j})+\sum_{i\neq j}y_i\hat{y_j}\\ &=-y_j+y_j\hat{y_j}+\sum_{i\neq j}y_i\hat{y_j}\\ &=\hat{y_j}-y_j \end{aligned}$
于是对于整个 $z^{[L]}$ 显然有
$dz^{[L]}=\hat{y}-y$
在多个样本时显然有
$dZ^{[L]}=\frac{1}{m}(\hat{Y}-Y)$
这里的 $\frac{1}{m}$ 来自来自损失函数。

做技术不可耻

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
softmax函数的反向传播求导

吴恩达老师在深度学习视频中讲解softmax\mathrm{softmax}softmax函数时，直接给出了损失函数对z[l]z^{[l]}z[l]的导数，这里推导一下计算过程。假设输出层有nnn个神经元，使用softmax\mathrm{softmax}softmax函数后神经网络的输出为y^j=exp⁡(zj[l])∑i=1nexp⁡(zi[l])j=1,2,...,n\hat{y}_j...
复制链接

扫一扫