直观理解为什么分类问题用交叉熵损失而不用均方误差损失?

最新推荐文章于 2023-09-26 23:17:34 发布

shine-lee

最新推荐文章于 2023-09-26 23:17:34 发布

阅读量4.3k

点赞数 18

分类专栏：深度学习基础机器学习

本文链接：https://blog.csdn.net/blogshinelee/article/details/103518097

版权

本文从损失函数和softmax反向传播的角度，对比交叉熵损失与均方误差损失，解释了在分类问题中交叉熵作为损失函数的优势。交叉熵损失关注样本所属类别，更好地引导网络学习，而均方误差可能给出错误指示，尤其在无类别相关性信息时。在反向传播中，交叉熵损失避免了分类错误时不更新权重的问题，更符合分类问题的预期。

摘要由CSDN通过智能技术生成

博客： blog.shinelee.me | 博客园 | CSDN

交叉熵损失与均方误差损失

常规分类网络最后的softmax层如下图所示，传统机器学习方法以此类比，

一共有 $K$ 类，令网络的输出为 $[\hat{y}_1,\dots, \hat{y}_K]$ ，对应每个类别的概率，令label为 $[y_1, \dots, y_K]$ 。对某个属于 $p$ 类的样本，其label中 $y_p=1$ ， $y_1, \dots, y_{p-1}, y_{p+1}, \dots, y_K$ 均为0。

对这个样本，交叉熵（cross entropy）损失为
$\begin{aligned}L &= - (y_1 \log \hat{y}_1 + \dots + y_K \log \hat{y}_K) \\&= -y_p \log \hat{y}_p \\ &= - \log \hat{y}_p\end{aligned}$
**均方误差损失（mean squared error，MSE）**为
$\begin{aligned}L &= (y_1 - \hat{y}_1)^2 + \dots + (y_K - \hat{y}_K)^2 \\&= (1 - \hat{y}_p)^2 + (\hat{y}_1^2 + \dots + \hat{y}_{p-1}^2 + \hat{y}_{p+1}^2 + \dots + \hat{y}_K^2)\end{aligned}$