两个角度解释为什么逻辑回归（sigmoid, softmax）分类的损失函数用交叉熵而不用最小二乘

最新推荐文章于 2024-08-19 20:56:21 发布

JayShaun

最新推荐文章于 2024-08-19 20:56:21 发布

阅读量6.5k

点赞数 5

分类专栏： algorithm 文章标签：分类交叉熵

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_37864814/article/details/94625639

版权

algorithm 专栏收录该内容

12 篇文章 8 订阅

订阅专栏

Z

- 从梯度消失角度讲
- 从分类和回归任务的区别讲

从梯度消失角度讲

$\sigma(z) = \frac{1}{1+e^{-z}}$
在这里插入图片描述
如图所示，sigmiod函数在z值很大或很小的时候几乎不变，也就是梯度接近零，如果用最小二乘不会解决这个梯度消失问题，故不选择最小二乘损失。
那为什么交叉熵损失却可以呢？因为-log抵消掉了exp! 其实此时的交叉熵损失等同于使用最大似然来学习一个由sigmoid参数化的Bernoulli分布，它的损失函数推导如下：
在这里插入图片描述

从分类和回归任务的区别讲

我们可以像线性回归那样使用最小二乘损失函数 $||{\hat {y}-y}||^2$ ，然而想要预测分类结果正确，我们其实并不需要预测概率完全等于标签概率，也无需关心错误标签的预测概率是多少，我们只关心正确标签的预测概率越大越好，就可以确保分类结果正确。我们交叉熵损失时，真实标签打成one-hot形式，只计算了对应类别是1的那一项，其他为零的类不考虑。嗯，这就是另一种原因。

欢迎交流，谢谢指正！

参考：花书

关注

5
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。