Softmax及其损失函数求导推导过程

最新推荐文章于 2024-07-31 15:02:43 发布

linyu0716

最新推荐文章于 2024-07-31 15:02:43 发布

阅读量3k

点赞数

分类专栏：公式推导文章标签： softmax 交叉熵求导

本文链接：https://blog.csdn.net/linyu0716/article/details/89650095

版权

公式推导专栏收录该内容

1 篇文章 0 订阅

订阅专栏

Softmax激活函数的损失函数求导过程推导

Softmax函数介绍
Softmax的损失函数：交叉熵
Softmax求导过程
损失函数求导

Softmax函数介绍

在深度学习领域，多分类问题的激活函数常常使用softmax函数，它将多个神经元的输出，映射到（0,1）区间内，可以看成概率来理解，从而来进行多分类！
以前学机器学习时了解过softmax，但没仔细推导过，这段时间在学CS224n课程，要自己推导，看了一些网上的推导，始终有些地方不明白的，后来终于把softmax求梯度过程弄明白了，下面把自己的心得和推导过程记录一下
先看一下Softmax函数：
$Softmax(\theta i) = \frac{e^{\theta i}}{\sum_k e^{\theta}}$

Softmax的损失函数：交叉熵

$Loss=\sum_k y_i {\ }{\rm ln } {\ }a_i$

Softmax求导过程

Softmax函数输入 $\theta$ 是有k个元素的向量，每个 $\theta$ 都会对应着一个softmax，因此，每个softmax都要分别对每个 $\theta$ 求导，对 $\theta$ 求导结果就是一个k*k的雅可比矩阵
$\begin{bmatrix} \frac {\partial S_0 }{\partial \theta_0} & \frac {\partial S_1 }{\partial \theta_0} & {...} & \frac {\partial S_k }{\partial \theta_0} \\ \frac {\partial S_0 }{\partial \theta_1} & \frac {\partial S_1 }{\partial \theta_1} & {...} & \frac {\partial S_k }{\partial \theta_0} \\ {...} &{...}&{...}&{...} \\ \frac {\partial S_0 }{\partial \theta_k} & \frac {\partial S_1 }{\partial \theta_k} & {...} & \frac {\partial S_k }{\partial \theta_k} \end{bmatrix}$

代入softmax公式，求偏导公式为：
$\frac{\partial S_i}{\partial \theta_j}=\frac{\partial \frac{e^{\theta_i}}{\sum e^\theta}}{\partial \theta_j}$
令 $u=e^{\theta_i}$ , $v=\sum e^\theta$ ,则根据复合函数求导法则， $\frac{u}{v}$ 导数为 $\frac{u'v-uv'}{v^2}$ ：
$\begin{aligned} \frac{\partial S_i}{\partial \theta_j}&=\frac{\partial \frac{e^{\theta_i}}{\sum e^\theta}}{\partial \theta_j}\\ &=\frac{\frac{{\partial e^{\theta_i}}}{\partial \theta_j}{\sum e^\theta}- e^{\theta_i}{\frac{\partial \sum e^\theta}{\partial \theta_j}}} {(\sum e^\theta)^2} \end{aligned}$
此时，需要考虑 $i=j和i\ne j$ 的情况
当 $i = j$ 时：
$\begin{aligned} \frac{\partial e^{\theta_i}}{\partial \theta_j}&=e^{\theta_i}\\ \frac{\partial \sum e^\theta}{\partial \theta_j} &= e^{\theta_i}\\ 则\frac{\partial S_i}{\partial \theta_j} &=\frac{e^{\theta_i}{\sum e^\theta}- e^{\theta_i}e^{\theta_i}}{(\sum e^\theta)^2}\\ &=\frac{e^{\theta_i}}{\sum e^\theta}\cdot \frac{\sum e^\theta-e^{\theta_i}}{\sum e^\theta}\\ &=S_i\cdot(1-S_i) \end{aligned}$
当 $i\ne j$ 时：
$\begin{aligned} \frac{\partial e^{\theta_i}}{\partial \theta_j}&=0\\ \frac{\partial \sum e^\theta}{\partial \theta_j} &= e^{\theta_j}\\ 则\frac{\partial S_i}{\partial \theta_j} &=\frac{0\cdot{\sum e^\theta}- e^{\theta_i}e^{\theta_j}}{(\sum e^\theta)^2}\\ &=-\frac{e^{\theta_i}}{\sum e^\theta}\cdot \frac{e^{\theta_j}}{\sum e^\theta}\\ &=-S_i\cdot S_j \end{aligned}$

损失函数求导

根据链式求导法则，损失函数对 $\theta$ 求导可进行分解：
$\begin{aligned} \frac{dL}{d\theta}&=\frac{dL}{d S}\cdot \frac{dS}{d\theta}\\ &=-\frac{d\sum y_i {\rm ln}S_i}{dS_i} \cdot \frac{dS_i}{d\theta_i}\\ &=-\sum \frac{y_i}{S_i} \cdot \frac{dS_i}{d\theta_j} \end{aligned}$
代入上面的softmax求导结果，将 $i = j$ 和 $i\ne j$ 结果相加：
$\begin{aligned} \frac{dL}{d\theta}&=-\frac{y_i}{S_i} \cdot S_i(1-S_i) - \sum_{i\ne j} \frac{y_i}{S_j} \cdot (-S_i\cdot S_j)\\ &=-y_i\cdot(1-S_i) +\sum_{i\ne j}y_i\cdot S_i\\ &=S_i\sum y_i - y_i \end{aligned}$
因为y_i相加的结果等于1，因此最后的结果就是
$\frac{dL}{d\theta}=S_i-y_i$

linyu0716

关注

0
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
Softmax及其损失函数求导推导过程

Softmax激活函数的损失函数求导过程推导Softmax函数介绍新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导...
复制链接

扫一扫