softmax的梯度下降推导

最新推荐文章于 2024-08-31 11:40:26 发布

sinat_18131557

最新推荐文章于 2024-08-31 11:40:26 发布

阅读量3.7k

点赞数 6

分类专栏：深度学习

本文链接：https://blog.csdn.net/sinat_18131557/article/details/99697547

版权

深度学习专栏收录该内容

14 篇文章 1 订阅

订阅专栏

由于深度学习网络课程中没有清楚讲softmax的梯度下降的推导过程，在这里记录如下：
softmax是在做多分类问题时候用在输出层的，函数定义为： $a_k=g(z_k)=\frac {e^{z_k}}{\sum\limits_{i=1}^{C}{e^{z_i}}}$ 损失函数的定义为： $L(a,y)=-\sum\limits_{j=1}^{C}y_{j}\log a_j$

根据链式求导法则， $\frac{\partial L}{\partial z_j} = \frac{\partial L} {\partial a_j} \cdot \frac{\partial a_j}{\partial z_j}$ ，先来计算 $\frac{\partial L} {\partial a_j}$ ,这里使用下标 $j$ 主要是为了和softmax函数定义中的下标 $i$ 区分开来: $\frac{\partial L} {\partial a_j}=-\sum\limits_{j=1}^{C}\frac{y_j}{a_j}$ 然后计算 $\frac{\partial a_j}{\partial z_j}$ ,这里有2种情况，当 $j = k$ 时（这里要注意 $\sum\limits_{i=1}^{C}{e^{z_i}}$ 中也含有 $e^{z_j}$ ）： $\frac{\partial a_j}{\partial z_j}=\left(\frac {e^{z_k}}{\sum\limits_{i=1}^{C}{e^{z_i}}}\right)'=\left({e^{z_k}}({\sum\limits_{i=1}^{C}{e^{z_i}}})^{-1}\right)'={e^{z_k}}{(\sum\limits_{i=1}^{C}{e^{z_i}}})^{-1}+\frac{e^{z_k}(-1)e^{z_j}}{(\sum\limits_{i=1}^{C}{e^{z_i}})^2}=a_k-a_ka_j$

当 $\neq k$ ，那么 $\frac{\partial a_j}{\partial z_j}$ 中的分子项就认为是常数： $\frac{\partial a_j}{\partial z_j}=\left(\frac {e^{z_k}}{\sum\limits_{i=1}^{C}{e^{z_i}}}\right)'=\left({e^{z_k}}({\sum\limits_{i=1}^{C}{e^{z_i}}})^{-1}\right)'=\frac{e^{z_k}(-1)e^{z_j}}{(\sum\limits_{i=1}^{C}{e^{z_i}})^2}=-a_ka_j$ 所以 $\frac{\partial L}{\partial z_j}$ 中也把 $j = k$ 与 $j\neq k$ 区分开：
$\begin{array}{ll} \frac{\partial L}{\partial z_j} = \frac{\partial L} {\partial a_j} \cdot \frac{\partial a_j}{\partial z_j} &=-\left[\frac{y_j}{a_j}(a_k-a_ka_j)+\sum\limits_{j\neq k}^{C}\frac{y_j}{a_j}(-a_ka_j)\right]\\ &=a_ky_j-y_j+\sum\limits_{j\neq k}^{C}a_ky_j\\ &=\sum\limits_{j=1}^{C}a_ky_j-y_j\text{ (这里的}k=j\text{)}\\ &=a_j\sum\limits_{j=1}^{C}y_j-y_j\\ &=a_j-y_j \end{array}$