逻辑回归感知机异同,损失函数思考

逻辑斯蒂回归和感知机的异同:

两类都是线性分类器;

损失函数两者不同:逻辑斯蒂回归使用极大似然(对数损失函数),感知机使用的是均方损失函数(即错误点到分离平面的距离,最小化这个值)

逻辑斯蒂比感知机的优点在于对于激活函数的改进。

前者为sigmoid function,后者为阶跃函数。这就导致LR是连续可导,而阶跃函数则没有这个性质。

LR使得最终结果有了概率解释的能力(将结果限制在0-1之间),sigmoid为平滑函数,能够得到更好的分类结果,而step function为分段函数,对于分类的结果处理比较粗糙,非0即1,而不是返回一个分类的概率。

逻辑斯蒂回归为什么不能用均方损失作为损失函数呢:

首先设想一下,目标函数为E_{w,b}=\sum_{i=1}^{m}\left ( y_{i}-\frac{1}{1+e^{-\left ( w^{T}x_{i}+b \right )}}\right )^2 ,并不是不可以求解,那为什么不用呢?

知乎大神解决了我的疑惑:

如果用最小二乘法,目标函数就是 E_{w,b}=\sum_{i=1}^{m}\left ( y_{i}-\frac{1}{1+e^{-\left ( w^{T}x_{i}+b \right )}}\right )^2 ,是非凸的,不容易求解,会得到局部最优。

最小二乘作为损失函数的函数曲线:

<img src="https://pic4.zhimg.com/50/v2-50e67b8caa634bc77abf67ee075ada00_hd.jpg" data-size="normal" data-rawwidth="374" data-rawheight="256" class="content_image" width="374">
 最小二乘作为逻辑回归模型的损失函数,theta为待优化参数



如果用最大似然估计,目标函数就是对数似然函数: l_{w,b}=\sum_{i=1}^{m}\left ( -y_{i}\left ( w^{T}x_{i}+b \right )+ln\left ( 1+e^{w^{T}x_{i}+b} \right ) \right ) ,是关于 (w,b) 的高阶连续可导凸函数,可以方便通过一些凸优化算法求解,比如梯度下降法、牛顿法等。

最大似然作为损失函数的函数曲线(最大似然损失函数后面给出):

<img src="https://pic3.zhimg.com/50/v2-5b13c52423931adc0f0e38beb1f8e8eb_hd.jpg" data-size="normal" data-rawwidth="356" data-rawheight="250" class="content_image" width="356">
再来附加一个大神的推导:

面来推一下逻辑回归中最大损失函数到底是怎么来的,因为我看到很多地方只是说了一下用到最大似然的方法,就直接给出了最终的形式,还看到有书里面过程搞错了,也给出了最终的正确形式。

既然是最大似然,我们的目标当然是要最大化似然概率了:

max \prod_{i=1}^{m}p(y_{i}|x_{i},\theta)

对于二分类问题有:

p_{1}=p(y=1|x,\theta)=\frac{e^{x\theta}}{1+e^{x\theta}},y=1

p_{0}=p(y=0|x,\theta)=\frac{1}{1+e^{x\theta}},y=0

用一个式子表示上面这个分段的函数为:(记得写成相乘的形式)

p=p(y|x,\theta)=p_{1}^{y_{i}}\ast p_{0}^{1-y_{i}}

代入目标函数中,再对目标函数取对数,则目标函数变为:

max \sum_{i=1}^{m}({y_{i}log^{p_{1}}+(1-y_{i})log^{p_{0}})}

如果用 h_{\theta}(x_{i}) 来表示 p_{1} ,则可用 1-h_{\theta}(x_{i}) 来表示 p_{0} ,再将目标函数max换成min,则目标函数变为:

min -\frac{1}{m}\sum_{i=1}^{m}({y_{i}log^{h_{\theta}(x_{i})}+(1-y_{i})log^{1-h_{\theta}(x_{i})})}

这样就得到最终的形式了!


作者:临熙
链接:https://www.zhihu.com/question/65350200/answer/266277291
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
 
逻辑斯蒂回归中的极大似然是什么?极大似然,对数损失函数,交叉熵之间的区别联系:
逻辑斯蒂回归使用的是极大似然就相当于最小化负的似然函数,从损失函数的角度来看就变成了对数损失
 
极大似然和交叉熵之间的表现形式一样。好神奇,有空继续补充



 

 

转载于:https://www.cnblogs.com/smartwhite/p/9109815.html

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
逻辑回归和支持向量机(SVM)是两种常用的二分类机器学习算法,它们有一些相似之处,但也有一些明显的区别。 相同之处: 1. 两者都是监督学习算法,用于解决二分类问题。 2. 都可以处理线性可分和线性不可分的数据。 3. 都使用了梯度下降等优化算法来优化模型。 不同之处: 1. 建模思想:逻辑回归是基于概率模型,通过拟合参数来建立输入和输出之间的概率关系;而SVM是基于几何间隔最大化的原理,通过寻找一个最优的超平面来实现分类。 2. 决策边界:逻辑回归使用的是线性决策边界,对于非线性问题需要进行特征变换或引入高阶特征;而SVM可以通过核函数将低维特征空间映射到高维特征空间,从而实现非线性分类。 3. 目标函数:逻辑回归使用的是最大似然估计,通过最大化似然函数来拟合数据;SVM使用的是结构风险最小化原则,通过最小化目标函数中的正则化项和分类误差项来寻求最优解。 4. 鲁棒性:逻辑回归对异常值比较敏感,因为它的损失函数是基于概率模型的;而SVM对异常值相对较为鲁棒,因为它的决策边界是由支持向量决定的。 5. 可解释性:逻辑回归模型具有较好的可解释性,可以解释每个特征对结果的影响;而SVM模型相对较难解释,因为它的决策边界是通过支持向量确定的。 总体而言,逻辑回归和SVM都是常用的分类算法,选择哪个取决于具体问题和数据集的特点。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值