softmax导数推理过程

最新推荐文章于 2024-03-31 15:41:05 发布

慌张而黑糖

最新推荐文章于 2024-03-31 15:41:05 发布

阅读量960

点赞数

分类专栏：机器学习文章标签： softmax导数

本文链接：https://blog.csdn.net/baidu_41895811/article/details/89415885

版权

机器学习专栏收录该内容

2 篇文章 1 订阅

订阅专栏

softmax导数

softmax公式

$a_j=\frac{e^{Z_j}}{\sum_{i=1}^{m}e^{Z_i}}$

简单解释一下这个公式， $a_j$ 表示最终输出第j类的概率，而第j类的概率是用 $e^{Z_j}$ 比上所有类别的和。

损失函数

$L=-\sum_i{y_i\ln{a_i}}$
损失函数用这个而不用平方差的形式，简单的说是因为这个训练出的模型效果更好。
详细解释请看这篇博客：平方损失函数与交叉熵损失函数

求导

先约定一下： $dZ_i$ 表示 $\frac{\partial L}{\partial Z_i}$

$dZ_i=\frac{\partial L}{\partial Z_i}=\sum_j{(\frac{\partial L_j}{\partial a_j}\frac{\partial a_j}{\partial Z_i})}=\sum_j{(\frac{\partial {(-y_j\ln{a_j}})}{\partial a_j}\frac{\partial a_j}{\partial Z_i})}$

先不看求和符号，分成两部分 $\frac{\partial {(-y_j\ln{a_j}})}{\partial a_j},\frac{\partial a_j}{\partial Z_i}$ 进行求导。

$\frac{\partial {(-y_j\ln{a_j}})}{\partial a_j}=-\frac{y_j}{a_j}$

$\frac{\partial a_j}{\partial Z_i}$ ,这部分比较特殊，i和j代表不同的数，i表示一个特定的数，而j表示任意一个节点。
所以我们分两种情况：
1、i=j时： $\frac{\partial a_j}{\partial Z_i}=\frac{\partial a_i}{\partial Z_i}=\frac{\partial {\frac{e^{Z_i}} {\sum_k e^{Z_k}}}}{\partial Z_i}=\frac{e^{Z_i}\sum_k{e^{Z_k}}-(e^{Z_i})^2}{(\sum_k{e^{Z_k}})^2}$

解释一下 $e^{Z_i})^2$ 是怎么来的，对 $\sum_k{e^{Z_k}}$ 求导，等于对 $e^{Z_1}+e^{Z_2}+...e^{Z_i}+...+e^{Z_n}$ 求导，因为k是从一开始的，肯定有一个k值和i相等，而其他 $e^{Z_k}$ 相对于 $Z_i$ 都是常数，求导变成零，只剩下 $e^{Z_i}$ ，所以求导为上面的形式。继续推导。
上式= $\frac{e^{Z_i}}{\sum_ke^{Z_k}}(1-\frac{e^{Z_i}}{\sum_ke^{Z_k}})=a_i(1-a_i)$

2、 $i\neq j$ 时：
$\frac{\partial a_j}{\partial Z_i}=\frac{\partial {\frac{e^{Z_j}} {\sum_{k}e^{Z_k}}}}{\partial Z_i}=\frac{-e^{Z_i}e^{Z_j}}{(\sum_{k}{e^{Z_k}})^2}=-a_ia_j$
这里对 $\sum_k{e^{Z_k}}$ 求导方法和上面一样。
最后将上面的导数合并一下
$\sum_j{(\frac{\partial L_j}{\partial a_j}\frac{\partial a_j}{\partial Z_i})}=\sum_{j\neq i}{(\frac{\partial L_j}{\partial a_j}\frac{\partial a_j}{\partial Z_i})}+\sum_{j=i}{(\frac{\partial L_j}{\partial a_j}\frac{\partial a_j}{\partial Z_i})}$
$=\sum_{j\neq i}{-\frac{y_j}{a_j}(-a_ia_j)}+\sum_{j=i}{-\frac{y_i}{a_i}}a_i(1-a_i)$
$=(\sum_{j\neq i}{a_iy_j})+(a_i-1)y_i=((a_i\sum_{j\neq i}y_j)+a_iy_i)-y_i$
$=a_i(\sum_jy_j)-y_i=a_i-y_i$

最后我想说明一下， $((a_i\sum_{j\neq i}y_j)+a_iy_i)$ 这里我用了两个括号，就是想给大家一个提示，因为 $a_i\sum_{j\neq i}y_j$ 这里少了一个 $j = i$ 的点，而后面有一个 $a_iy_i$ ,合起来正好是 $a_i(\sum_jy_j)$ ；还有一点是最后的结果为什么去掉求和符号，对于分类问题 $\sum_jy_j$ 等于1。
举个例子：
$\begin{bmatrix} y1\\ y2 \\ y3 \end{bmatrix}$ 表示最终要分的三个类别，而分的类别最终只能有一种结果，所以 $y 1, y 2, y 3$ 中只有一个为1，其他全为零，所以求和为1。