logsitic regression学习笔记

先从linear regression说起,这个在之前整理时只说过条件,现在来细节点。

y=wx+e, 这里面e说error,服从N(0, sigma^2)的分布。这里面x时观测到的数据,是定值,y也是观测到的,但是确实随机变量,服从N(wx, sigma^2)的正态分布。此处的w是coefficient,是真实值。因为在实际中我们不能得到真实值,于是我们对其有个估计,这个焦作w hat,它也是服从正态分布,N(w, sigma^2 hat w)。当我们对其进行估计的时候,我们使用least square也就是最小二乘法来算出我们的loss function,然后求出error最小时的w。

这里其实也可以用MLE来算,但是因为此处MLE和least square方法是相同的,所以没必要用MLE。


进入正题, logistic regression。

logit(u) = log (u/1-u) = wx (这里为什么这样定义,我还是不知道,据说超出我理解范围。。。)

这里u = E(y) = p,是个确定的值,wx也是个定值,所以可以注意到这里不再有error这里项了。这里y是可以取值0, 1, 所以u就是当y=1时的概率。

u = 1*p + 0*(1-p)

求解上面的方程,可以得到 p = u = 1/(1+e**(-wx)),这就是我们说的sigmoid function。

求解w时我们用的是MLE,也就是即大似然法,然后通过gradient的迭代来求解w。



这个叫做log conditional likelihood的东西,就是我们希望最大化的目标函数,当其最大时w就是我们想要的值。但是这里需要注意的是当X中如果有许多rare features的话,那么会出现overfitting。所谓rare feature,是指当attributes中过多数据为0,只有少数为1的情况。又称为sparsity。为什么在这种情况下会有overfitting呢?我们来看当我们做迭代时候是如何来更新w的



这里我们可以看出来若x为0则w没有更新,所以对应的w则始终等于初始值0, 而那些非0项的w则逐次更新,这样就会导致overfitting。那么如何来减小overfitting呢?

所以我们要说下regularization。所谓的regularization,不过是一种制衡的方式,就是对现有的估计加上一个penalty。我们提到的主要是L1 norm和L2 norm。什么叫norm,norm翻译成中文叫做范数,这个东西其实是根据一定规则定出来的一个scalar,用这个scalar来表征一个对应的vector。L1 norm就是把一个vector里面的每一项取绝对值然后相加,L2 norm则是每项取平方相加。然后我们把它加入到我们的LCL中去。



这里面 用的是L2 norm(Ridge),对于这个结果,我们依旧是要maximize它,因为lambda和w都是正数,所以只有当这一项小的时候我们才能找到大的值,但是当它小的时候就意味着w应趋近于 0,这时候LCL也很小。若是LCL很大,这时w也会很大,整体也有可能会小。所以说这就起到了制衡的作用。也就是我们称之为penalty的原因。


此时 w就用如下公式来更新了。


说到这里有必要说下lasso,通常我们称L1 norm为lasso,据说这个是很牛掰的,现在广泛的应用,名字也取得恰当。为什么牛掰呢?

简单说来,就是在我们最小化penalty的时候,w会趋近于0, w趋近于0意味着数据中有些对应的attributes就没用了,这样有什么好处呢,就是当有许多attributes的时候,最终我们只需要用部分的就可以来估计了。当attributes很多的时候,这时很强大的方法。lasso中文翻译成套索,在套索收紧的过程,attributes也变少了,形象极了。听到这里我真的惭愧的哭了。上课时学的什么玩意啊。。。


这里粘过来一张L1 norm 和L2 norm的图,好好领会。




  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值