关于为什么分类问题不能使用MSE

最新推荐文章于 2025-03-21 21:19:23 发布

wzc-run

最新推荐文章于 2025-03-21 21:19:23 发布

阅读量1.4k

点赞数 20

分类专栏：机器学习（Machine Learning，ML）文章标签：人工智能机器学习算法

本文链接：https://blog.csdn.net/qq_40519226/article/details/136383531

版权

机器学习（Machine Learning，ML）专栏收录该内容

6 篇文章

订阅专栏

分类问题使用的损失函数为：交叉熵
回归问题使用的损失函数为：MSE

今天被人问到为什么分类问题不能使用MSE，突然不知道怎么回答了，之前也没考虑过这个问题，只是知道这么去使用。下面是查了一些资料，以及推导了一点公式，试图将这个问题讲明白。

首先，对于分类问题，网络输出的是属于某个类的概率。二分类就输出一个值，属于该类就是这个值，不属于这类就等于1-该值。多分类问题（比如n个类别），就是得到n个概率值。

这就要求使用激活函数对最后一层进行处理，二分类使用sigmoid，多分类就使用softmax，这两个函数本质上是等价的。

假设模型的预测结果为 $\hat y$ ，真实的结果为 $y$ ：

如果是MSE激活函数： $Loss=\frac{1}{2n}\sum_{i=1}^{n}(y_i-\hat y_i)^2$ , n表示类别数

如果是交叉熵函数： $Loss=-\sum_{i=1}^{n}y_i\log(\hat{y_i})$ , n表示类别数

以二分类sigmoid为例：

模型的输出为： $\hat y\in(0,1)$
标签为 $y = 1$

我们知道，sigmoid求导为： $\hat{y}(1-\hat{y})$

MSE激活函数：
$Loss=\frac{1}{2}(y-\hat y)^2$
$\frac{\partial Loss}{\partial \theta}=(y-\hat{y})\hat{y}(y-\hat{y})\frac{\partial output}{\partial \theta}=(1-\hat{y})\hat{y}(1-\hat{y})\frac{\partial output}{\partial \theta}$

交叉熵函数：
$Loss=-y\log(\hat{y})$
$\frac{\partial Loss}{\partial \theta}=-y\frac{1}{\hat{y}}\hat{y}(y-\hat{y})\frac{\partial output}{\partial \theta}=-y(y-\hat{y})\frac{\partial output}{\partial \theta}=-(1-\hat{y})\frac{\partial output}{\partial \theta}$

因此，在使用MSE时，梯度是 $\hat{y}$ 的三次表达式，如果 $\hat y$ 被错误的预测，也就是等于0，那么梯度也是0，不会被优化，显然是不对的。
而使用交叉熵，梯度是 $\hat y$ 的线性表达（正好被消掉了），如果 $\hat y$ 被错误的预测，也就是等于0，那么梯度是有值的，会被正常优化。