Logistic Regression (逻辑斯蒂回归)的来龙去脉

Logistic Regression (逻辑斯蒂回归)的来龙去脉

‘逻辑斯蒂回归’是对‘Logistic Regression’的音译,其实对它的直白翻译应该就是“逻辑回归”,下面为了强调“逻辑”这个词,我就将“Logistic Regression”翻译成“逻辑回归”。为什么会取这么个名字呢?个人感觉是因为“逻辑回归”是用来分类的,最终拟合的是0和1这两个数,这就是数学中的逻辑符号,真就是1,假就是0,所以取了这么一个名字。我看过很多文章,大多是按照《统计学习方法》或者西瓜书中的思路来讲解的,是倒过来讲“逻辑回归”:先给出“逻辑回归”的定义,然后再说两个概率是怎么回事,并没有讲清楚“逻辑回归”的来龙去脉,这里我尝试讲一讲“逻辑回归”是怎么来的。

考虑现实中的问题,我们有一组数据,这组数据的每一个特征向量xi都是n维的,而且这组数据包含两个类:0类和1类。我们想使用这么一种办法将两类分开:假设有这么一个权值向量w,将特征向量xi乘上这个权值向量之后得到数值z,将z代入某一个函数中,得到的函数值就是这个特征向量xi属于1类的概率P1。因为有两类,所以这个特征向量xi为0类的概率P0 = 1-P1。比较这两个概率,谁比较大就将数据判为哪一类。

首先是问题一:概率应该是0~1范围内的。什么函数可以将任意数值z对应到0-1的范围内呢?有阶跃函数,也有sigmod函数,或者还有其他的函数。哪一种比较好?变化越连续越好。阶跃函数在0处会有一个突变,z小于0的话,那么对应特征向量xi为1类的概率为0,z大于0的话,那么对应特征向量xi为1类的概率为1。这比较极端,我们希望在0这个地方变化连续一些,比如sigmod函数在0处变化就比阶跃函数舒缓,并且变化快慢程度还可以调整。最重要的是sigmod函数不会出现概率为0的情况,只是无限地接近0,这有很多好处:我们在求解参数的时候,就会发现sigmod函数的好处。

其次是问题二:上面提到的办法中,假设二字被加粗了。就是说,我们是假设存在这么一个权值向量w,进而提出后面的模型的。那么对于一组数据,是不是真的存在这么一个权值向量w,使得这组数据里面的特征向量xi满足:“xi乘上权值w得到z,z代入某一个函数得到特征向量xi为1类的概率 ”这个模型呢?答案是我们不知道,或者说我们不知道这个模型在多大程度上适用于这一组数据。但是我们可以试一试,就是假设这组数据是符合我们说的这个模型的,然后我们求出这个模型的参数,然后我们将求出来的模型在实际的数据上用一下,看看分类的准确率怎么样,如果效果达到指标,说明我们可以用,如果达不到,说明我们最好不要用这个模型,或者说不要用“逻辑回归”方法来对这组数据进行分类。

理解了前面说的模型,我们就可以理解“逻辑回归”是怎么一回事了。现在我们来说一说西瓜书里面的“对数几率”是怎么一回事:
y = 1 1 + e x p ( − w ⋅ x ) y=\frac{1}{1+exp(-w \cdot x)} y=1+exp(wx)1 这就是前面我们说的“逻辑回归”做的事情:使用sigmod函数将 w ⋅ x w\cdot x wx对应成 x x x为1类的概率,也就是(分子分母同乘e指数):
y = p ( Y = 1 ∣ x ) = e x p ( w ⋅ x ) 1 + e x p ( w ⋅ x ) y=p(Y=1|x) = \frac{exp(w \cdot x)} {1+exp(w \cdot x)} y=p(Y=1x)=1+exp(wx)exp(wx)那么:
1 − y = p ( Y = 0 ∣ x ) = 1 − p ( Y = 1 ∣ x ) = 1 1 + e x p ( w ⋅ x ) 1-y=p(Y=0|x) =1-p(Y=1|x)= \frac{1} {1+exp(w \cdot x)} 1y=p(Y=0x)=1p(Y=1x)=1+exp(wx)1现在西瓜书里面说到的,“逻辑回归”是广义线性回归就很好理解了。因为:
l n p ( Y = 1 ∣ x ) p ( Y = 0 ∣ x ) = w ⋅ x ln\frac{p(Y=1|x)}{p(Y=0|x)}=w \cdot x lnp(Y=0x)p(Y=1x)=wx我们将 l n y 1 − y = l n p ( Y = 1 ∣ x ) p ( Y = 0 ∣ x ) ln\frac{y}{1-y}=ln\frac{p(Y=1|x)}{p(Y=0|x)} ln1yy=lnp(Y=0x)p(Y=1x)叫做“对数几率”,可以看出来这里确实就是线性模型的广义扩展。但是“逻辑回归”并不是从广义线性回归中推导出来的,“逻辑回归”一开始也不是为了拟合“对数几率”的。只不过我们按照前面的思路进行推导,发现“逻辑回归”其实就是线性回归的拓展,所以我们也叫他“对数几率回归”。这就是这篇文章想说的事情。西瓜书里面直接就将线性回归进行推广,然后得到了“逻辑回归”,让人有点摸不着头脑,无法理解后面概率公式,这其实是不太好的:“逻辑回归”一开始就是带有概率的的!

接下来我会写如何求“逻辑回归”参数 w w w的博客。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值