logistic regression 和 softmax regression的损失函数

最新推荐文章于 2024-04-10 08:00:00 发布

这题我会啊

最新推荐文章于 2024-04-10 08:00:00 发布

阅读量1.9k

点赞数 1

分类专栏： deep-learning 文章标签：损失函数 softmax

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Love_wanling/article/details/75268628

版权

本文探讨了logistic regression在处理概率输出时为何不适合使用MSE损失函数，并介绍了如何通过交叉熵损失函数解决这一问题。同时，文章还涉及softmax回归，说明在实际应用中通常将softmax层与回归层结合，并采用log-likelihood作为损失函数。

摘要由CSDN通过智能技术生成

我们有logistic regression可以将实数域的输入映射为0到1的概率输出，能够有很好的意义。但是如果用平常的MSE（最小均方误差）就会有问题。我们来剖析这个问题：

logistic与MSE

这里写图片描述

现在有一个目标：输入0，输出1。
为了方便起见，我们现在只考虑有一个神经元

这里写图片描述

我们给定初始的权重w=0.6,b=0.9来看学习趋势，这里学习率 η=0.15，初始预测值为0.82
这里写图片描述

这里写图片描述

可以看到Cost一开始随着训练轮数的增加下降的还是蛮快的，之后平缓，符合人们的直觉。
我们再次改变权重令，w=2.0,b=2.0,初始预测值为0.98
这里写图片描述

这里写图片描述

可以看出一开始的Cost几乎是不下降的，也就是说学习得特别缓慢。为什么会出现这种情况呢，初始的权重不同为什么会导致学习速率的不同呢？我们来看logistic regression+MSE到底哪里有欠缺。

首先来看MSE的形式：

C (ω, b) = 1 2 n \sum x | | y (x) - a | | 2

$C(\omega,b ) = \frac{1}{2n}\sum_{x}||y(x)-a||^2$
由于我们的简化，现在只有一个神经元则，变成：

C (ω, b) = 1 2 | | y - a | | 2

$C(\omega,b ) = \frac{1}{2}||y-a||^2$
其中

a=σ(z),z=ωx+b $a = \sigma(z),z=\omega x+b$
分别对

ω $\omega$ ，

b $b$ 求偏导：

\partial C \partial ω = (y - σ (z)) σ' (z) x

$\frac{\partial C}{\partial \omega}=(y-\sigma(z))\sigma'(z)x$

\partial C \partial b

最低0.47元/天解锁文章

这题我会啊

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。