softmax回归加交叉熵损失函数求导

最新推荐文章于 2024-05-20 19:08:38 发布

CodePerWorld

最新推荐文章于 2024-05-20 19:08:38 发布

阅读量111

点赞数

文章标签：回归数据挖掘人工智能

本文链接：https://blog.csdn.net/weixin_42761614/article/details/132111297

版权

对类别进行一位有效编码
$\mathbf y=[y1,y2,...,y_n]^T$
$y_i=\begin{cases} 1 &\text{if i = y}\\ o&\text{otherwise} \end{cases}$

在这里插入图片描述
预测出来的 $\mathbf o$ 经过softmax层得到
$\mathbf {\hat y} = softmax(\mathbf {o})$
$\hat{y_i} = \frac{e^{o_i}}{\sum_ke^{o_k}}$
损失函数:
$l(\mathbf y, \hat{\mathbf y}) = - \displaystyle\sum_i\hat y_i\ln\hat y_i=-\ln\hat y_y$
其梯度与真实概率和预测概率的区别
$\partial_{o_i}l(\mathbf y, \hat{\mathbf y})=softmax(o)_i-y_i$
这个式子就是求偏导后推出来的
也就是对 $-\ln {\hat y_y}$ 进行求偏导
我假设i不等于y
$\partial(-\ln {\hat y_y})=-\frac{1}{\hat y_y}\partial_{o_i} \hat y_y$
其中
$-\frac{1}{\hat y_y}=-\frac{\sum_ke^{o_k}}{e^{o_y}}$ (a)
$\partial_{o_i} \hat y_y=\partial_{o_i} \frac{e^{o_y}}{\sum_ke^{o_k}}=-\frac{e^{o_y}e^{o_i}}{(\sum_ke^{o_k})^2}$
上面两个式子结合就是
$\partial(-\ln {\hat y_y})=-\frac{\sum_ke^{o_k}}{e^{o_y}}\times -\frac{e^{o_y}e^{o_i}}{(\sum_ke^{o_k})^2}=\frac{e^{o_i}}{\sum_ke^{o_k})}=softmax(o_i)$
如果i = y的话就是
$\partial(-\ln {\hat y_y})=softmax(o_i)-y_i$
其梯度是真实概率和预测概率的区别。这个式子可以这么形容。当然也可以联想到一定的逻辑关系。因为我们最终的目的是让预测的概率和真实的概率一样的。比如当 $y_i=0$ 时，我们希望 $softmax(o)_i也=0$ 。

这也是为什么我们用softmax()作为我们回归函数的原因吧

CodePerWorld

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
softmax回归加交叉熵损失函数求导

其梯度是真实概率和预测概率的区别。这个式子可以这么形容。当然也可以联想到一定的逻辑关系。因为我们最终的目的是让预测的概率和真实的概率一样的。这也是为什么我们用softmax()作为我们回归函数的原因吧。其梯度与真实概率和预测概率的区别。这个式子就是求偏导后推出来的。经过softmax层得到。对类别进行一位有效编码。如果i = y的话就是。上面两个式子结合就是。
复制链接

扫一扫