超详细的softmax的反向传播梯度计算推导

最新推荐文章于 2021-09-27 22:52:10 发布

深肚学习

最新推荐文章于 2021-09-27 22:52:10 发布

阅读量2.6k

点赞数 11

分类专栏：深度学习文章标签：机器学习深度学习神经网络数据挖掘线性代数

本文链接：https://blog.csdn.net/weixin_43217928/article/details/104772424

版权

这篇博客详细介绍了softmax激活函数在神经网络中的反向传播过程，通过具体案例展示了如何计算损失函数对输入Z的梯度，最终得出∂Z∂L=A−Y的结论。内容包括正向传播的描述，以及利用链式法则逐步求解∂zi∂L和∂zi∂ak的过程。

摘要由CSDN通过智能技术生成

Softmax及其求导

- 正向传播
- 求导

正向传播

为了方便理解，若输入，输出只有3个变量（下面的普通性情况不太理解的可以带入此特殊情况帮助理解）。

输入：输出层神经元 Z = [ $z_1$ , $z_2$ , $z_3$ ]，分类标签 Y = [ $y_1, y_2, y_3$ ]（Y是one-hot标签，只有一个 $y_i$ 值为1，其他全为0)
输出：A = softmax(Z) = [ $a_1, a_2, a_3$ ]

更一般的，假设有n个神经元（或者说n类），softmax公式为：
$a_i = \frac{e^{z_i}}{\sum_{j=1}^n e^{z_j}}$
损失函数采用交叉熵，公式为：
$-\sum_{i=1}^n y_ilna_i$

求导

先说结论，按向量形式表示 $\frac{\partial L}{\partial Z} = A - Y$

证明：在这里我们假设第k个神经元为正确标签，即在Y = [ $y_1, y_2, y_3$ ]中 $y_k$ = 1，其他 $y_i$ 都为0。

首先求L对A的导数
$\frac{\partial L}{\partial a_i} = \frac{\partial -\sum_{i=1}^n y_ilna_i}{\partial a_i}=-\frac{y_i}{a_i}$

再求L对Z的导数，这里需要注意，在正向传播时，每一个 $a_i$ 的计算都有所有的 $z_j$ 参加（请看softmax的公式的分母，是求和）
$\frac{\partial L}{\partial z_i} = \sum_{j=1}^n \frac{\partial L}{a_j} \cdot \frac{\partial a_j}{\partial z_i} = \sum_{j=1}^n -\frac{y_j}{ a_j} \cdot \frac{\partial a_j}{\partial z_i}$

最低0.47元/天解锁文章

深肚学习

关注

11
点赞
踩
18

收藏

觉得还不错? 一键收藏
3
评论
超详细的softmax的反向传播梯度计算推导

Softmax及其求导正向传播求导正向传播为了方便理解，若输入，输出只有3个变量（下面的普通性情况不太理解的可以带入此特殊情况帮助理解）。输入：输出层神经元 Z = [z1z_1z1, z2z_2z2, z3z_3z3]，分类标签 Y = [y1,y2,y3y_1, y_2, y_3y1,y2,y3]（Y是one-hot标签，只有一个yiy_iyi值为1，其他全为0)输出：...
复制链接

扫一扫