【面试】为什么均方差（MSE）不适合分类问题？

最新推荐文章于 2024-04-22 16:15:12 发布

Michaelangelo峰

最新推荐文章于 2024-04-22 16:15:12 发布

阅读量2.1k

点赞数 4

文章标签：机器学习深度学习

本文链接：https://blog.csdn.net/weixin_41665541/article/details/119117109

版权

1.为什么均方差（MSE）不适合分类问题？

**1.** 当sigmoid函数和MSE一起使用时会出现梯度消失。原因如下：
(1)MSE对参数的偏导
$在这里插入图片描述$
$在这里插入图片描述$
(2)corss-entropy对参数的偏导
$在这里插入图片描述$
$在这里插入图片描述$
由上述公式可以看出，在使用MSE时，w、b的梯度均与sigmoid函数对z的偏导有关系，而sigmoid函数的偏导在自变量非常大或者非常小时，偏导数的值接近于零，这将导致w、b的梯度将不会变化，也就是出现所谓的梯度消失现象。而使用cross-entropy时，w、b的梯度就不会出现上述的情况。所以MSE不适用于分类问题。

2. 在线性回归中用到的最多的是MSE(最小二乘损失函数)，这个比较好理解，就是预测值和目标值的欧式距离。
而交叉熵是一个信息论的概念，交叉熵能够衡量同一个随机变量中的两个不同概率分布的差异程度，在机器学习中就表示为真实概率分布与预测概率分布之间的差异。交叉熵的值越小，模型预测效果就越好。所以交叉熵本质上是概率问题，表征真实概率分布与预测概率分布差异，和几何上的欧氏距离无关，在线性回归中才有欧氏距离的说法，在分类问题中label的值大小在欧氏空间中一般可以认为是没有意义的。所以MSE不适用于分类问题。
3. 分类问题是逻辑回归，必须有激活函数这个非线性单元在，比如sigmoid（也可以是其他非线性激活函数），而如果还用mse做损失函数的话：
MSE版本的逻辑斯蒂回归损失函数

我们可以看到这个时候MSE损失已经是非凸函数了，有多个极值点，所以不适用做损失函数了。何必呢。所以MSE不适用于分类问题

2.交叉熵不适用于回归问题

当MSE和交叉熵同时应用到多分类场景下时，（标签的值为1时表示属于此分类，标签值为0时表示不属于此分类），MSE对于每一个输出的结果都非常看重，而交叉熵只对正确分类的结果看重。例如：在一个三分类模型中，模型的输出结果为（a,b,c)，而真实的输出结果为(1,0,0)，那么MSE与cross-entropy相对应的损失函数的值如下：
MSE：
$在这里插入图片描述$
cross-entropy：
$在这里插入图片描述$
从上述的公式可以看出，交叉熵的损失函数只和分类正确的预测结果有关系，而MSE的损失函数还和错误的分类有关系，该分类函数除了让正确的分类尽量变大，还会让错误的分类变得平均，但实际在分类问题中这个调整是没有必要的。但是对于回归问题来说，这样的考虑就显得很重要了。所以，回归问题熵使用交叉上并不合适。

Michaelangelo峰

关注

4
点赞
踩
12

收藏

觉得还不错? 一键收藏
3
评论
【面试】为什么均方差（MSE）不适合分类问题？

1.为什么均方差（MSE）不适合分类问题？ **1.** 当sigmoid函数和MSE一起使用时会出现梯度消失。原因如下： (1)MSE对参数的偏导 (2)corss-entropy对参数的偏导由上述公式可以看出，在使用MSE时，w、b的梯度均与sigmoid函数对z的...
复制链接

扫一扫