交叉熵损失导数推理

GHZhao_GIS_RS

已于 2022-04-15 12:17:14 修改

阅读量6.2k

点赞数 3

分类专栏：深度学习文章标签：交叉熵损失求导 Softmax Sigmoid

于 2022-04-14 15:46:36 首次发布

本文链接：https://blog.csdn.net/u014311125/article/details/124172154

版权

深度学习专栏收录该内容

47 篇文章 51 订阅

订阅专栏

在深度学习网络训练中，交叉熵损失是一种经常使用的损失函数，这篇文章里我们来推导一下交叉熵损失关于网络输出z的导数，由于二分类是多分类的特殊情况，我们直接介绍多分类的推导过程。

一、Softmax交叉熵损失求导

基于softmax的多分类交叉熵公式为

$L_{S C E}=-\sum_{j=1}^{C} y_{j} \log \left(p_{j}\right)$

其中 $C$ 表示类别总数，包含背景类别， $p_j$ 通过 $Softmax(z_j)$ 计算得到， $z_j$ 是网络的输出。 $y$ 是真实标签，通常由one-hot形式编码，单独一个样本的标签如下:

$y_{j}=\left\{\begin{array}{ll} 1 & \text { if } j=c \\ 0 & \text { otherwise } \end{array}\right.$
$c$ 表示这个样本属于 $c$ 类。
我们拿1个属于c类的样本来举例，网络输出为z，因为总共有 $C$ 类，所以网络有 $C$ 个 $z$ 值， ${z_1,z_2,...z_c,...z_{C-1},z_C\}$ ，然后经过Softmax激活得到 $C$ 个和为1的概率值 $p$ ，该样本的真实标签 $y$ 只有 $y_c=1$ ，其余都为0，每一类的损失是：-1x标签xlog(概率值)，最后求和得到总损失。
在这里插入图片描述
可以知道， $c$ 类样本的标签编码中除了 $y_c$ =1外，其他值 $y_j$ 都为0，所以这个样本对应的其他类的交叉熵都为0，总损失可以化简为:
$L_{S C E}=-\log \left(p_{c}\right)\\ p_c=\frac{e^{z_c} }{\sum_{j=1}^{C}{e^{z_j} }}$
下面我们来计算一下损失 $L_{SCE}$ 对每个 $z_j$ 的导数。当 $y_j=0时$ ，该类对应的损失为0，求导时无用，但是由于激活函数是Softmax，计算 $p_c$ 时 $z_j$ 被用到（分母），所以不管 $y_j$ 是否为0，对 $z_j$ 求导时,都需要考虑 $c$ 类对应的概率值 $p_c$ 。

对 $z_j$ 求导需要用到链式求导法则，即
$\begin{array}{lcl} \frac{\partial L_{SCE}}{\partial z_j} &=&\frac{\partial L_{SCE}}{\partial p_c}&\times &\frac{\partial p_c}{\partial z_j} \\[4mm] &=&\frac{\partial (-log(p_c))}{\partial p_c} &\times&\frac{\partial(\frac{e^{z_c}}{\sum_{j=1}^{C}e^{z_j}})}{\partial z_j}\\[4mm] &=&-\frac{1}{p_c} &\times &\frac{{\color{red}\frac{\partial e^{z_c}}{\partial z_j}}\times (\sum_{j=1}^{C}e^{z_j})-e^{z_c}\times e^{z_j}}{(\sum_{j=1}^{C}e^{z_j})^2} \\[4mm]&=&-\frac{\sum_{j=1}^{C}e^{z_j}}{e^{z_c}} &\times &\frac{{\color{red}\frac{\partial e^{z_c}}{\partial z_j}}\times (\sum_{j=1}^{C}e^{z_j})-e^{z_c}\times e^{z_j}}{(\sum_{j=1}^{C}e^{z_j})^2} \end{array}$

当 $j = c$ 时，
$\begin{array}{lcl} \color{red} \frac {\partial e^{z_c}} {\partial z_j} &=&\frac{\partial e^{z_j}} {\partial z_j}\\[4mm] &=&e^{z_j} \end{array}$
代入 $\frac{\partial L_{SCE}}{\partial z_j}$ 得
$\begin{array}{lcl} \frac{\partial L_{SCE}}{\partial z_j}&=&-\frac{\sum_{j=1}^{C}e^{z_j}}{e^{z_c}} &\times&\frac{ {\color {red} \frac{\partial e^{z_c}}{\partial z_j}} \times(\sum_{j=1}^{C}e^{z_j})-e^{z_c}\times e^{z_j}}{(\sum_{j=1}^{C}e^{z_j})^2} \\[4mm]&=&-\frac{\sum_{j=1}^{C}e^{z_j}}{e^{z_j}} &\times&\frac{{\color {red}e^{z_j}}\times(\sum_{j=1}^{C}e^{z_j})-e^{z_j}\times e^{z_j}}{(\sum_{j=1}^{C}e^{z_j})^2} \\[4mm]&=&-\frac{(\sum_{j=1}^{C}e^{z_j})-e^{z_j}}{\sum_{j=1}^{C}e^{z_j}}\\[4mm] &=&-(1-\frac{e^{z_j}}{\sum_{j=1}^{C}e^{z_j}})\\[4mm] &=&p_j-1 \end{array}$

当 $\neq c$ 时
$\begin{array}{lcl} \color{red} \frac{\partial e^{z_c}} {\partial z_j} &=&0 \end{array}$
代入 $\frac{\partial L_{SCE}}{\partial z_j}$ ，
$\begin{array}{lcl} \frac{\partial L_{SCE}}{\partial z_j}&=&-\frac{\sum_{j=1}^{C}e^{z_j}}{e^{z_c}} &\times &\frac{{\color{red}\frac{\partial e^{z_c}}{\partial z_j}}\times (\sum_{j=1}^{C}e^{z_j})-e^{z_c}\times e^{z_j}}{(\sum_{j=1}^{C}e^{z_j})^2} \\[4mm]&=&-\frac{\sum_{j=1}^{C}e^{z_j}}{e^{z_c}} &\times &\frac{{\color{red}0} \times (\sum_{j=1}^{C}e^{z_j})-e^{z_c}\times e^{z_j}}{(\sum_{j=1}^{C}e^{z_j})^2} \\[4mm]&=&-\frac{-e^{z_j}}{\sum_{j=1}^{C}e^{z_j}}\\[4mm] &=&p_j \end{array}$

所以:
$\frac{\partial L_{SCE}}{\partial z_{j}}=\left\{\begin{array}{ll} p_{j}-1 & \text { if } j=c \\ p_{j} & { j \ne c } \end{array}\right.$
在这里插入图片描述

二、Sigmoid交叉熵损失求导

sigmoid一般是用在二分类问题中，二分类时，网络只有一个输出值，经过sigmoid函数得到该样本是正样本的概率值。损失函数如下:
$L = - y * l o g p - (1 - y) * l o g (1 - p)$
使用Sigmoid函数做多分类时，相当于把每一个类看成是独立的二分类问题，类之间不会相互影响。真实标签 $y_j$ 只表示j类的二分类情况。
基于sigmoid的多分类交叉熵公式如下：
$L_{B C E}=-\sum_{j}^{C} \log \left(\hat{p_{j}}\right)$

$\hat{p_{j}}=\left\{\begin{array}{ll} p_{j} & \text { if } y_{j}=1 \\ 1-p_{j} & \text { otherwise } \end{array}\right.$
其中 $p_j$ 通过 $\sigma\left(z_{j}\right)$ 计算得到，即sigmoid函数，表达式如下：
$p_j=\frac{1}{1+e^{-z_j}}$
sigmoid函数的导数如下:
$\begin{array}{lcl} \frac{\partial p_j}{\partial z_j}&=&\frac{\frac{\partial(1)}{\partial z_j}\times (1+e^{-z_j})-1\times \frac{\partial(1+e^{-z_j})}{\partial z_j}}{(1+e^{-z_j})^2}\\[4mm] &=&\frac{-e^{-z_j}\times (-1)}{{(1+e^{-z_j})^2}}\\[4mm] &=&\frac{1+e^{-z_j}-1}{{(1+e^{-z_j})^2}}\\[4mm] &=&\frac{1}{{(1+e^{-z_j})}}-\frac{1}{{(1+e^{-z_j})^2}}\\[4mm] &=&p_j-p_j^{2}\\[4mm] &=&p_j(1-p_j) \end{array}$

我们拿1个属于c类的样本来举例，网络输出为z，因为总共有 $C$ 类，所以网络有 $C$ 个 $z$ 值， ${z_1,z_2,...z_c,...z_{C-1},z_C\}$ ，然后经过sigmoid激活得到 $C$ 个独立的概率值 $p$ ，该样本的真实标签 $y$ 只有 $y_c=1$ ，其余都为0。每一类都是一个单独的二分类问题，通过二分类交叉熵来计算损失，最后把所有类的损失相加。
在这里插入图片描述
现在我们计算损失 $L_{BCE}$ 关于网络输出 $z$ 的导数 $\frac{\partial L}{\partial z_j}$ ，这里需要用到链式法则，在计算Loss对 $z_j$ 的导数时，只需要考虑该类对应的 $p_j$ 即可，因为其他类的概率值跟 $z_j$ 没有关系。
$\begin{array}{c} \frac{\partial L_{BCE}}{\partial z_j}&=&\frac{\partial L_{BCE}}{\partial {p_j}}&\times& \frac{\partial {p_j}}{\partial z_j} \\[4mm]&=&{\color{red}\frac{\partial (-log(\hat{pj} ))}{\partial p_j}}& \times &p_j \times(1-pj) \end{array}$

当 $y_j=1$ 时， $\hat{p_j}=p_j$ :
$\begin{array}{c} \frac{\partial L_{BCE}}{\partial z_j}&=&\frac{\partial L_{BCE}}{\partial {p_j}}&\times& \frac{\partial {p_j}}{\partial z_j} \\[4mm]&=&{\color{red}\frac{\partial (-log(\hat{pj} ))}{\partial p_j}}& \times &p_j \times(1-pj) \\[4mm]&=&{\color{red}\frac{\partial (-log({pj} ))}{\partial p_j}}& \times &p_j \times(1-pj) \\[4mm]&=&{-\color{red}\frac{1}{p_j} }& \times &p_j \times(1-pj) \\[4mm]&=&p_j-1 \end{array}$

当 $y_j=0$ 时, $\hat{p_j}=1-p_j$ :
$\begin{array}{c} \frac{\partial L_{BCE}}{\partial z_j}&=&\frac{\partial L_{BCE}}{\partial {p_j}}&\times& \frac{\partial {p_j}}{\partial z_j} \\[4mm]&=&{\color{red}\frac{\partial (-log(\hat{pj} ))}{\partial p_j}}& \times &p_j \times(1-pj) \\[4mm]&=&{\color{red}\frac{\partial (-log({1-pj} ))}{\partial p_j}}& \times &p_j \times(1-pj) \\[4mm]&=&{-\color{red}\frac{1}{1-p_j} \times -1} & \times &p_j \times(1-pj) \\[4mm]&=&p_j \end{array}$
所以
$\frac{\partial L_{BCE}}{\partial z_{j}}=\left\{\begin{array}{ll} p_{j}-1 & \text { if } y_{j}=1 \\ p_{j} & \text { otherwise } \end{array}\right.$

在这里插入图片描述

三、总结

不管是使用sigmoid还是softmax作为最后的分类器，损失函数关于网络输出z的导数的形式是一样的。
$\frac{\partial Loss}{\partial z_{j}}=\left\{\begin{array}{ll} p_{j}-1 & \text { if } y_{j}=1 \\ p_{j} & \text { otherwise } \end{array}\right.$