深度学习——损失函数与梯度推导

最新推荐文章于 2024-04-10 09:30:00 发布

隔壁的NLP小哥

最新推荐文章于 2024-04-10 09:30:00 发布

阅读量3.6k

点赞数 1

分类专栏：神经网络

本文链接：https://blog.csdn.net/hei653779919/article/details/104167070

版权

神经网络专栏收录该内容

23 篇文章 5 订阅

订阅专栏

深度学习——误差计算与梯度推导

1、均方误差(MSE)

1.1 均方误差(MSE)概述

均方误差是一种常见的损失函数，一般在回归问题中比较常见，其基本公式为:
$MSE=\frac{1}{C}∑_{i=1}^L(y_{ri}-y_i)^2$
其中，C是一个超参数，为了便于求导，一般情况下取C=2。 $y_{ri}$ 是真实的标签值的第i个属性值，
$y_i$ 表示预测值的第i个属性值。

1.2 均方误差的梯度

下面假设：
$J=MSE=\frac{1}{C}∑_{i=1}^L(y_{ri}-y_i)^2$
则有：
$\frac{2J}{∂y_i}=\frac{∂\frac{1}{C}∑_{i=1}^L(y_{ri}-y_i)^2}{∂y_i}=\frac{2}{C}(y_{ri}-y_i)*(-1)=\frac{2}{C}(y_i-y_{ri})$
整理成向量的形式有：
$\frac{2J}{∂y}=\frac{2}{C}* \begin{matrix} y_1 - y_{r1} \\ y_2 - y_{r2}\\ ……\\ y_L - y_{rL} \end{matrix}$

2 sotfmax + 交叉熵

2.1 简单介绍

sotfmax和交叉熵通常被用于分类任务中，其中，softmax的定义为：
$y_i = \frac{e^{o_i}}{∑_{j=1}^Le^{o_j}}$
其中， $o_i$ 表示输出单元输出的第i个属性值，一般情况下， $y_i$ 表示属于第i类的概率。
交叉熵的损失函数定义为：
$J = - ∑_{i=1}^Ly_{ri}ln(y_i)$
其中 $y_{ri}$ 表示真实的第i类的概率值。

一般情况下，softmax产生的是一个L维的概率分布Y。而真实向量 $Y_r$ 是一个01向量，1表示对应的分类。0表示不是该分类。

2.2 梯度计算

现在，我们假设在真实的分类向量 $Y_r$ 中，对应的是第s个分类。则有 $y_s=1,y_{i≠s}=0$ 。

我们分成两种情况：

当i=s的时候，有：
$J = - y_{rs}ln(y_s)$
$y_s = \frac{e^{o_s}}{∑_{j=1}^Le^{o_j}}$
则有：
$\frac{∂J}{∂o_s}=\frac{∂J}{∂y_s}*\frac{∂y_s}{∂o_s}=\frac{∂( - y_{rs}ln(y_s))}{∂y_s}*\frac{∂\frac{e^{o_s}}{∑_{j=1}^Le^{o_j}}}{∂o_s}$
根据 $J和y_s$ 进一步化简有：
$\frac{∂( - y_{rs}ln(y_s))}{∂y_s}=-y_{rs}*\frac{1}{y_s}$
$\frac{∂\frac{e^{o_s}}{∑_{j=1}^Le^{o_j}}}{∂o_s}=\frac{e^{o_s}*(∑_{j=1}^Le^{o_j}-e^{o_s})}{(∑_{j=1}^Le^{o_j})^2}$
将上式带入到原始的式子中，有:
$\frac{∂J}{∂o_s}=-y_{rs}*\frac{∑_{j=1}^Le^{o_j}}{e^{o_s}}*\frac{e^{o_s}*(∑_{j=1}^Le^{o_j}-e^{o_s})}{(∑_{j=1}^Le^{o_j})^2}=-y_{rs}*(1-y_s)$
当i≠s的时候，有:
$J = - y_{rs}ln(y_s)$
$y_i = \frac{e^{o_i}}{∑_{j=1}^Le^{o_j}}$
则有:
$\frac{∂J}{∂o_i}=\frac{∂J}{∂y_s}*\frac{∂y_s}{∂o_i}=-y_{rs}*\frac{1}{y_s}*\frac{∂y_s}{∂o_i}$
其中：
$\frac{∂y_s}{∂o_i}=\frac{-e^{o_s}*e^{o_i}}{(∑_{j=1}^Le^{o_j})^2}$
带入到原式子之后：
$\frac{∂J}{∂o_i}=-y_{rs}*\frac{∑_{j=1}^Le^{o_j}}{e^{o_s}}*\frac{-e^{o_s}*e^{o_i}}{(∑_{j=1}^Le^{o_j})^2}=y_{rs}*y_i$
最后，我们能够发现：根据 $y_{rs}=1$ ，上面两种情况的计算结果可以化简为：

当i=s的时候，导数为： $y_s -1=y_s - y_{rs}$
当i≠s的时候，导数为: $y_i - 0=y_i-y_{ri}$

由此可以总结出：
$\frac{∂J}{∂o_i}=y_{i} - y_{ri}$

隔壁的NLP小哥

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
1
评论
深度学习——损失函数与梯度推导

深度学习——误差计算与梯度推导1、均方误差(MSE)1.1 均方误差(MSE)概述均方误差是一种常见的损失函数，一般在回归问题中比较常见，其基本公式为:MSE=1C∑i=1L(yri−yi)2MSE=\frac{1}{C}∑_{i=1}^L(y_{ri}-y_i)^2MSE=C1i=1∑L(yri−yi)2其中，C是一个超参数，为了便于求导，一般情况下取C=2。yriy_{ri}...
复制链接

扫一扫