神经网络适用于分类问题的最后一层-Softmax和交叉熵损失介绍及梯度推导

最新推荐文章于 2025-03-18 12:15:37 发布

宇日辰

最新推荐文章于 2025-03-18 12:15:37 发布

阅读量3.7k

点赞数 7

分类专栏：深度学习文章标签：自然语言处理深度学习神经网络机器学习

本文链接：https://blog.csdn.net/qq_42734797/article/details/110748836

版权

本文深入解析了Softmax与CrossEntropyLoss在深度学习分类任务中的应用，详细推导了该组合的梯度计算过程，并揭示了其在反向传播中的巧妙之处。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言

传统机器学习中两大经典任务就是回归与分类。分类在深度学习中也很常见，令我印象最深的是图像分类。当然，在NLP中，分类也无处不在。从RNN与其变体，到Transformer、Bert等预训练模型，只要涉及到在词表中挑选单词，就可以使用分类任务的思路来解决。在深度学习模型中，区分回归还是分类，往往只需要看最后一层的激活函数以及损失函数。这里有一个定式：凡是采用 $\mathrm{Softmax+CrossEntropy Loss}$ 就一定是在分类。本文主要对这个组合的梯度进行计算，证明其巧妙之处，以加深自己对分类问题及其方法的理解

1 关于Softmax

1.1 Softmax的形式

$若\bm{x}=\begin{bmatrix} x_1\\ ...\\ x_i\\ ...\\ x_n\\ \end{bmatrix},那么\mathrm{Softmax}(\bm{x})=\begin{bmatrix} \frac{e^{x_1}}{\sum_ke^{x_k}}\\ ...\\ \frac{e^{x_i}}{\sum_ke^{x_k}}\\ ...\\ \frac{e^{x_n}}{\sum_ke^{x_k}}\\ \end{bmatrix}$

若 $\bm{y}=\mathrm{Softmax}(\bm{x})$ ，那么对于任意 $y_i$ 有以下特点：

$y_i\in(0,1)$ ，且 $\sum_iy_i=1$ ，所以可以 $y_i$ 当成属于类 $i$ 的概率
在计算任意一个 $y_i$ 时，都会用到所有 $x_i$
在计算任意一个 $y_i$ 时，都会以 $e$ 为底数，我们知道 $e^x$ 会随着 $x$ 的增大而急剧增大，这就会产生一种“大的更大，小的更小”的马太效应

1.2 一些其他细节

为什么叫这个名字？
其实 $\mathrm{Softmax}$ 就是 $\mathrm{soft}$ 版本的 $\mathrm{max}$ 。我们平时所说的 $\mathrm{max}$ ，就是从多个值中选出一个最大的，这其实是 $\mathrm{Hardmax}$ 。而 $\mathrm{Softmax}$ 是分别给这些值一个相应的概率，另外由于其有马太效应，数值相差越大，概率相差也越大。如果给其前面加一个 $\mathrm{log}$ ，那么就是 $\mathrm{max}$ 的一个可微的近似
关于 $\mathrm{Softmax}$ 其实还有很多细节，比如数值稳定性问题，本文就不一一展开讲了，可以参考Softmax vs. Softmax-Loss: Numerical Stability 这篇文章，是一篇不错的延伸