两个角度解释为什么逻辑回归(sigmoid, softmax)分类的损失函数用交叉熵而不用最小二乘

从梯度消失角度讲

s i g m o i d : σ ( z ) = 1 1 + e − z sigmoid: \sigma(z) = \frac{1}{1+e^{-z}} sigmoid:σ(z)=1+ez1
在这里插入图片描述
如图所示,sigmiod函数在z值很大或很小的时候几乎不变,也就是梯度接近零,如果用最小二乘不会解决这个梯度消失问题,故不选择最小二乘损失。
那为什么交叉熵损失却可以呢?因为-log抵消掉了exp! 其实此时的交叉熵损失等同于使用最大似然来学习一个由sigmoid参数化的Bernoulli分布,它的损失函数推导如下:
在这里插入图片描述

从分类和回归任务的区别讲

我们可以像线性回归那样使用最小二乘损失函数 ∣ ∣ y ^ − y ∣ ∣ 2 ||{\hat {y}-y}||^2 y^y2,然而想要预测分类结果正确,我们其实并不需要预测概率完全等于标签概率,也无需关心错误标签的预测概率是多少,我们只关心正确标签的预测概率越大越好,就可以确保分类结果正确。我们交叉熵损失时,真实标签打成one-hot形式,只计算了对应类别是1的那一项,其他为零的类不考虑。嗯,这就是另一种原因。

欢迎交流,谢谢指正!

参考:花书

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值