机器学习问题汇总——逻辑回归

问题1:LR和线性回归,有何异同

1、LR是分类问题,线性回归是回归问题,这是最本质的区别。

具体来说,LR中,y取值是一个几何分布,模型学习得出的是
E [ y ∣ x ; θ ] E[y|x;\theta] E[yx;θ]
这个公式的解释是,给定x和参数后,得到y的期望

而线性回归求解的是
y ′ = θ T x {y}' = \theta^Tx y=θTx
是我们对于假设的真实关系
y = θ T x + ϵ {y} = \theta^Tx+\epsilon y=θTx+ϵ
的一个近似。其中 ϵ \epsilon ϵ代表误差项。我们用这个近似项来处理回归问题。

正因为是分类和回归问题,LR的因变量是离散的,线性回归的是连续的。

2、在x和参数确定的情况下,LR可以看做是广义线性模型(Generalized Linear Model)在y服从几何分布时的一个特殊情况。

而使用最小二乘求线性回归时,我们认为y服从正态分布

3、都使用了极大似然估计来对训练样本进行建模。但是,

线性回归使用最小二乘法,就是在x和参数确定,y服从正态分布的假设下,使用极大似然估计的一个化简

是不是个化简呢?这两个都不是一种求值的思路。

最大似然估计:现在已经拿到了很多个样本(你的数据集中所有因变量),这些样本值已经实现,最大似然估计就是去找到那个(组)参数估计值,使得前面已经实现的样本值发生概率最大。因为你手头上的样本已经实现了,其发生概率最大才符合逻辑。这时是求样本所有观测的联合概率最大化,是个连乘积,只要取对数,就变成了线性加总。此时通过对参数求导数,并令一阶导数为零,就可以通过解方程(组),得到最大似然估计值。
最小二乘:找到一个(组)估计值,使得实际值与估计值的距离最小。本来用两者差的绝对值汇总并使之最小是最理想的,但绝对值在数学上求最小值比较麻烦,因而替代做法是,找一个(组)估计值,使得实际值与估计值之差的平方加总之后的值最小,称为最小二乘。“二乘”的英文为least square,其实英文的字面意思是“平方最小”。这时,将这个差的平方的和式对参数求导数,并取一阶导数为零,就是OLSE。
转自:https://www.zhihu.com/question/20447622/answer/23848605

问题2:为什么要用Sigmoid

因为线性回归模型的预测值为实数,而样本的类标记为(0,1),我们需要将分类任务的真实标记y与线性回归模型的预测值联系起来,也就是找到广义线性模型中的联系函数。如果选择单位阶跃函数的话,它是不连续的不可微。而如果选择sigmoid函数,它是连续的,而且能够将z转化为一个接近0或1的值。

问题3:为什么叫对数几率函数

Sigmoid的定义是
y = 1 1 + e − ( w T x + b ) y=\frac {1} {1+e^{-(w^Tx+b)}} y=1+e(wTx+b)1
可以推导出
ln ⁡ y 1 − y = w T x + b \ln \frac y {1-y} = w^Tx+b ln1yy=wTx+b
若将y视为x作为正例的可能性,那么1-y是其反例的可能性,两者的比值就称为“几率”。反映了x作为正例的相对可能性。然后再取对数,可以看出,上式其实是在用线性回归模型的预测结果去逼近真实标记的对数几率

问题4:为什么LR用最大似然而不是最小二乘作为损失函数

简单的说,如果用最小二乘会导致损失函数是一个非凸函数。具体参考机器学习算法推导(一)逻辑回归

问题5:逻辑回归在训练的过程当中,如果有很多的特征高度相关或者说有一个特征重复了100遍,会造成怎样的影响?

  • 先说结论,如果在损失函数最终收敛的情况下,其实就算有很多特征高度相关也不会影响分类器的效果。
  • 但是对特征本身来说的话,假设只有一个特征,在不考虑采样的情况下,你现在将它重复100遍。训练以后完以后,数据还是这么多,但是这个特征本身重复了100遍,实质上将原来的特征分成了100份,每一个特征都是原来特征权重值的百分之一。
  • 如果在随机采样的情况下,其实训练收敛完以后,还是可以认为这100个特征和原来那一个特征扮演的效果一样,只是可能中间很多特征的值正负相消了。

问题6:LR的缺点

  • 很难处理数据不平衡的问题。举个例子:如果我们对于一个正负样本非常不平衡的问题比如正负样本比 10000:1.我们把所有样本都预测为正也能使损失函数的值比较小。但是作为一个分类器,它对正负样本的区分能力不会很好。

  • 处理非线性数据较麻烦。逻辑回归在不引入其他方法的情况下,只能处理线性可分的数据,或者进一步说,处理二分类的问题 。

  • 逻辑回归本身无法筛选特征。有时候,我们会用gbdt来筛选特征,然后再上逻辑回归。

问题7:LR和神经网络的关系

LR可以看做是没有隐层的神经网络。因为LR有激活函数,有梯度下降更新权重,只是少了一层全连接的隐层。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值