Softmax 与交叉熵损失函数的反向传播公式推导

最新推荐文章于 2024-05-01 17:26:11 发布

zhangchaosd

最新推荐文章于 2024-05-01 17:26:11 发布

阅读量1.5k

点赞数 2

分类专栏：机器学习文章标签：神经网络深度学习机器学习反向传播

本文链接：https://blog.csdn.net/rzdyzx/article/details/120679248

版权

机器学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

Softmax 与交叉熵损失函数的反向传播公式推导

一、正向传播

用一个 X 举例，假设 S 为最后一层全连接层的输出，S 是一个长度为 c 的行向量，其中元素的含义为 c 个类分别的得分，即 $s_1$ 为 X 在第一个类的得分，以此类推。
$\huge S=\{s_1,\ s_2,\ s_3,\ \dots,\ s_c\}\tag{1}$

然后将 S 输入到 Softmax，输出一个长度为 c 的行向量 P，其中元素为各类别的概率。
$\huge P=\{p_1,\ p_2,\ p_3,\ \dots,\ p_c\}\tag{2}$

Softmax 每个元素的计算公式:
$\huge p_{i}=\frac{e^{s_{i}}}{\sum\limits_{j=1}^{c}e^{s_{j}}}=\frac{e^{s_{i}}}{e^{s_{1}}+e^{s_{2}}+e^{s_{3}}+\dots+e^{s_{c}}}\tag{3}$

Loss function 为交叉熵损失函数，输入为 P 和真实标签 Y，Y也是一个长度为 c 的行向量。多数情况下对于分类问题，Y 会是一个 one-hot 向量，即 Y 中只有一个元素为 1，其余元素都为 0，其中 1 的下标表示 X 的类别。此文过程中先考虑复杂的情况，即 Y 中可能有多个小于 1 的元素，或者干脆假设 Y 中每个元素都是 1/c。本文末尾再给出 Y 为 one-hot 向量的简单情况。

下面为交叉熵损失函数的公式：
$\huge\ Loss=-\sum\limits_{j=1}^{c}y_j\ln p_j\\ \huge =-y_1\ln p_1-y_2\ln p_2-y_3\ln p_3-\dots-y_c\ln p_c\ \ (4)$

二、反向传播

我们要求的误差项如下：
$\huge \frac{\partial L}{\partial S}=\{\frac{\partial L}{\partial s_1},\ \frac{\partial L}{\partial s_2},\ \frac{\partial L}{\partial s_3},\ \dots,\ \frac{\partial L}{\partial s_c}\}\tag{5}$

我们计算其中任意一个元素，比如第三个 $\huge \frac{\partial L}{\partial s_3}$ ：

这里需要注意，由公式（4）可以看到 L 会受到 $p_1$ 到 $p_c$ 的影响，而看公式（3），每一个 $p$ 的分母都包含了 $s_3$ ，所以下面这个公式需要包含从 $s_3$ 到每一个 $p$ 再到 L 的路径。
$\huge \frac{\partial L}{\partial s_3}=\sum\limits_{j=1}^{c}\frac{\partial L}{\partial p_j}\frac{\partial p_j}{\partial s_3}\\ \huge =\frac{\partial L}{\partial p_1}\frac{\partial p_1}{\partial s_3}+\frac{\partial L}{\partial p_2}\frac{\partial p_2}{\partial s_3}+\frac{\partial L}{\partial p_3}\frac{\partial p_3}{\partial s_3}+\dots\frac{\partial L}{\partial p_c}\frac{\partial p_c}{\partial s_3}\tag{6}$

这里面的项有两种情况（因为 $p_3$ 对 $s_3$ 求导与其他的 $p$ 对 $s_3$ 求导不一样），第一种情况为不含 $p_3$ 的项，例如第一项：
$\huge \frac{\partial L}{\partial p_1}=-y_1\frac {1}{p_1}\tag{7}$

$\huge \frac{\partial p_1}{\partial s_3}=\frac{\partial(\frac{e^{s_{1}}}{e^{s_{1}}+e^{s_{2}}+e^{s_{3}}+\dots+e^{s_{c}}})}{\partial s_3}\\ \huge =\frac{0*(e^{s_{1}}+e^{s_{2}}+e^{s_{3}}+\dots+e^{s_{c}})-e^{s_{1}}*e^{s_3}}{(e^{s_{1}}+e^{s_{2}}+e^{s_{3}}+\dots+e^{s_{c}})^2}\\ \huge =\frac{-e^{s_{1}}*e^{s_3}}{(e^{s_{1}}+e^{s_{2}}+e^{s_{3}}+\dots+e^{s_{c}})^2}\\ \huge =-p_1*p_3\tag{8}$

把（7）和（8）乘起来得到（6）中的第一项：
$\huge \frac{\partial L}{\partial p_1}\frac{\partial p_1}{\partial s_3}=(-y_1\frac {1}{p_1})*(-p_1*p_3)\\ \huge =y_1p_3\tag{9}$

第二种情况为（6）中的第三项：
$\huge \frac{\partial L}{\partial p_3}=-y_3\frac {1}{p_3}\tag{10}$

$\huge \frac{\partial p_3}{\partial s_3}=\frac{\partial(\frac{e^{s_{3}}}{e^{s_{1}}+e^{s_{2}}+e^{s_{3}}+\dots+e^{s_{c}}})}{\partial s_3}\\ \huge =\frac{e^s_{3}*(e^{s_{1}}+e^{s_{2}}+e^{s_{3}}+\dots+e^{s_{c}})-e^{s_{3}}*e^{s_3}}{(e^{s_{1}}+e^{s_{2}}+e^{s_{3}}+\dots+e^{s_{c}})^2}\\ \huge =p_3-(p_3)^2\tag{11}$
把（10）和（11）乘起来得到（6）中的第三项：

$\huge \frac{\partial L}{\partial p_3}\frac{\partial p_3}{\partial s_3} \huge =(-y_3\frac {1}{p_3})*(p_3-(p_3)^2)\\ \huge = y_3p_3-y_3$

故公式（6）也就等于：
$\huge \frac{\partial L}{\partial s_3}=y_1p_3+y_2p_3+(y_3p_3-y_3)+\dots+y_cp_3\\ \huge =p_3\sum\limits_{j=1}^{c}y_j-y_3\tag{12}$
到这里我们也就得到了公式（5）中的第一项。

整理一下得到总的误差项：
$\huge \frac{\partial L}{\partial S}=\{\frac{\partial L}{\partial s_1},\ \frac{\partial L}{\partial s_2},\ \frac{\partial L}{\partial s_3},\ \dots,\ \frac{\partial L}{\partial s_c}\}\\ \large =\{p_1\sum\limits_{j=1}^{c}y_j-y_1,\ p_2\sum\limits_{j=1}^{c}y_j-y_2,\ p_3\sum\limits_{j=1}^{c}y_j-y_3,\ \dots,\ p_c\sum\limits_{j=1}^{c}y_j-y_c\}$
最后来考虑常见的简单情况，即 Y 为 one-hot 向量时，假设 $y_i$ 为1，其余元素都为 0，此时的 $\huge \frac{\partial L}{\partial S}$ 为:
$\huge \frac{\partial L}{\partial S} \huge =\{p_1y_i,\ p_2y_i,\ p_3y_i,\ \dots,\ p_iy_i-y_i,\ \dots,\ p_cy_i\}\\ \huge =\{p_1,\ p_2,\ p_3,\ \dots,\ p_i-1,\ \dots,\ p_c\}\\ \huge =P-Y\tag{14}$

done

zhangchaosd

关注

2
点赞
踩
25

收藏

觉得还不错? 一键收藏
2
评论
Softmax 与交叉熵损失函数的反向传播公式推导

Softmax 与交叉熵损失函数的反向传播公式推导一、正向传播用一个 X 举例，假设 S 为最后一层全连接层的输出，S 是一个长度为 c 的行向量，其中元素的含义为 c 个类分别的得分，即 s1s_1s1 为 X 在第一个类的得分，以此类推。S={s1, s2, s3, …, sc}(1)\huge S=\{s_1,\ s_2,\ s_3,\ \dots,\ s_c\}\tag{1}S={s1, s2, s3, …,&n
复制链接

扫一扫