softmax函数求导

最新推荐文章于 2023-12-25 23:59:36 发布

Jeffrey-J

最新推荐文章于 2023-12-25 23:59:36 发布

阅读量465

点赞数

分类专栏：神经网络

本文链接：https://blog.csdn.net/jj0629/article/details/105787507

版权

神经网络专栏收录该内容

2 篇文章 0 订阅

订阅专栏

softmax函数简写为 $S_i=\frac{e^i} {\sum_j e^j}$
交叉熵损失函数 $L=-\sum_k t_kln(y=k)$ 。其中目标类的 $t_k$ 为1，其余类的 $t_k$ 为0.
当预测为第i个时，可以认为 $t_i=1$ ， $y_i$ 表示求出的softmax值。
此时损失函数变成了： $Loss_i=-lny_i$ 。
根据定义： $y_i=\frac{e^i}{\sum_je^j}$ 。我们已经将数值映射到了0-1之间，并且和为1，则有: $\frac{e^i}{\sum_je^j}=1-\frac{\sum_{j\neq i}e^j}{\sum_je^j}$
接下来对Loss求导： $\frac{\partial Loss_i}{\partial_i}=-\frac{\partial lny_i}{\partial_i}=\frac{\partial(-ln\frac{e^i}{\sum_j e^J})}{\partial_i}$ $=-\frac{1}{\frac{e^i}{\sum_j e^J}} \cdot \frac{\partial (\frac{e^i}{\sum_j e^J})}{\partial_i}$ $=-\frac{\sum_j e^j}{e^i}\cdot \frac{\partial(1-\frac{\sum_{j\neq i}e^j}{\sum_je^j})}{\partial_i}$ $=-\frac{\sum_j e^j}{e^i}\cdot(-\sum_{j\neq i}e^j)\cdot\frac{\partial(\frac{1}{\sum_je^j})}{\partial_i}$ $=\frac{\sum_je^j\cdot\sum_{j\neq i}e^j)}{e^i}\cdot(-1)\cdot\frac{e^i}{(\sum_je^j)^2}$ $=-\frac{\sum_{j\neq i}e^j}{\sum_je^j}$ $=\frac{e^i}{\sum_je^j}-1$ $y_i - 1$
所以我们只需要正向求出 $y_i$ ，将结果减1就是反向更新的梯度。

Jeffrey-J

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
softmax函数求导

softmax函数简写为Si=ei∑jejS_i=\frac{e^i} {\sum_j e^j}Si=∑jejei交叉熵损失函数L=−∑ktkln(y=k)L=-\sum_k t_kln(y=k)L=−∑ktkln(y=k)。其中目标被的tkt_ktk为1，其余类的tkt_ktk为0.当预测为第i个时，可以认为ti=1t_i=1ti=1，yiy_iyi表示softmax值。...
复制链接

扫一扫