交叉熵CE VS MSE

最新推荐文章于 2023-05-02 23:04:15 发布

daisy0096

最新推荐文章于 2023-05-02 23:04:15 发布

阅读量1.1k

点赞数

分类专栏：机器学习基础

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/daisy0096/article/details/106639092

版权

交叉熵常用于分类任务，因为它衡量的是两个分布之间的距离，适合于伯努利分布的假设；而MSE适合回归任务，要求输入与输出一致，基于高斯分布假设。MSE在分类中可能导致梯度饱和，学习速度减慢，而交叉熵则避免了这个问题，且能更好地反映定性特征。

摘要由CSDN通过智能技术生成

交叉熵CE VS MSE

区别
为什么MSE损失不适合用于分类？

区别

分类用交叉熵，回归用mse/mae，前者的假设是伯努利分布，后者假设是高斯分布。
CE衡量两个分布的距离，MSE衡量两个变量的距离。分类输出为概率分布，MSE更要求的是输入与输出一样，多用于计算两个东西是否一样。
二者对于不同数据点的梯度不同，这种差异决定了其适用于不同的目标任务。CE比MSE更平缓，CE更强调定性特征而MSE更强调定量特征。

交叉熵可以理解为另一种形式的keller散度，而keller散度是用于衡量两个模型的相似程度，对于回归来说，每一个分类可以看成一个单独的模型，如果分类效果好，意味着模型相关性弱，keller散度也小。从这个角度讲，分类一般选择交叉熵。

为什么MSE损失不适合用于分类？

MSE损失函数不适合最后一层含有Sigmoid或Softmax激活函数的神经网络，平方误差损失函数相对于输出层的导数：
$\delta^{(L)} = -(y-a^{(L)})f^{'}(z^{(L)})$

最低0.47元/天解锁文章

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。