softmax和交叉熵损失函数求导

最新推荐文章于 2024-08-04 16:25:59 发布

赵YN的csdn

最新推荐文章于 2024-08-04 16:25:59 发布

阅读量368

点赞数

文章标签：交叉熵损失函数机器学习

本文链接：https://blog.csdn.net/qq_39004117/article/details/84338598

版权

今天看了交叉熵损失函数求导，上网上找，发现很多博客写的不清楚，下面具体写一下求导的过程。

关于交叉熵函数的介绍，参见我的上一篇博客。https://blog.csdn.net/qq_39004117/article/details/84260784

首先，在多分类问题中，交叉熵损失函数的定义为：

$J(\Theta )=- \frac{1}{m}\sum_{i=1}^{m} \sum_{k=1}^{K}y_k^{i}log(\widehat{p_k^i})$

其中， $\widehat{p_i^k}=softmax(\theta_k^TX_i)=\frac{e^{\theta_k^TX_i}}{\sum _je^{\theta_j^TX_i}}$

如果样本i的类别是k，那么 y_k^i =1，否则 y_k^i=0 。由此可知， $\sum _{k=1}^Ky_k^i=1$ 。

我一开始，对于i，k，j，w感觉非常混乱，现在我画一幅图来解释一下：

对于每一个类k，我都有一个对应的列向量 $${\bm{\theta}}$_k$ （不知道为啥不能加粗。。。）， X_i 对应图中的向量X， $\widehat{p_k^i}$ 是通过softmax算出来的第i个样本属于第k类的概率。

【推导】

对 $w\neq k$

$\begin{align} \frac{\partial\widehat{p_w^i} }{\partial \theta_k} &= \frac{\partial }{\partial x} \frac{e^{\theta_w^TX}}{\sum_j{e^{\theta_j^TX}}}\nonumber\\&= \frac{0*\sum_j-e^{\theta_w^TX}*(e^{\theta_k^TX}*X)}{\sum_j^2}\nonumber\\&=-\frac{e^{\theta_w^TX}}{\sum_j}*\frac{e^{\theta_k^TX}}{\sum_j}*X\nonumber\\&=-\widehat{p_w^i}*\widehat{p_k^i}*X\nonumber \end{align}$

对 w= k

$\begin{align} \frac{\partial\widehat{p_k^i} }{\partial \theta_k} &= \frac{\partial }{\partial x} \frac{e^{\theta_k^TX}}{\sum_j{e^{\theta_j^TX}}}\nonumber\\&= \frac{(e^{\theta_k^TX}*X)*\sum_j-e^{\theta_k^TX}*(e^{\theta_k^TX}*X)}{\sum_j^2}\nonumber\\&= \frac{e^{\theta_k^TX}}{\sum_j}*(1-\frac{e^{\theta_k^TX}}{\sum_j})*X\nonumber\\&=(1-\widehat{p_k^i})*\widehat{p_k^i}*X\nonumber \end{align}$

(编辑公式废了老大劲了……)

我们现在已经推出来了经过softmax的概率对于 $\theta_k$ 的偏导，现在我们回头看cross entropy loss function：

$\begin{align} \frac{\partial }{\partial \theta_k}J(\Theta )=&\frac{\partial }{\partial \theta_k}- \frac{1}{m}\sum_{i=1}^{m} \sum_{k=1}^{K}y_k^{i}log(\widehat{p_k^i})\nonumber\\&=- \frac{1}{m}\sum_{i=1}^{m}(\sum_{w \neq k}y_w^i \frac{- \widehat{p_w^i}\widehat{p_k^i}X}{\widehat{p_w^i}}+ y_k^{i} \frac{(1-\widehat{p_k^i})\widehat{p_k^i}X}{\widehat{p_k^i}})\nonumber\\&=- \frac{1}{m}\sum_{i=1}^{m}(y_i^k-(\sum_{w \neq k }y_w^i+y_k^i)\widehat{p_k^i})X\nonumber\\&=- \frac{1}{m}\sum_{i=1}^{m}(y_k^i- \widehat{p_k^i})X\nonumber \end{align}$

至此，推导完毕。

可以直观的看出，预测的值和实际值越接近，损失就越小。

赵YN的csdn

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
softmax和交叉熵损失函数求导

今天看了交叉熵损失函数求导，上网上找，发现很多博客写的不清楚，下面具体写一下求导的过程。关于交叉熵函数的介绍，参见我的上一篇博客。https://blog.csdn.net/qq_39004117/article/details/84260784首先，在多分类问题中，交叉熵损失函数的定义为： ...
复制链接

扫一扫