Logistic 回归

前言

Logistic Regression 就是一个被logistic方程归一化后的线性回归,仅此而已。至于所以用logistic而不用其它,是因为这种归一化的方法往往比较合理(人家都说自己叫logistic了嘛 呵呵),能够打压过大和过小的结果(往往是噪音),以保证主流的结果不至于被忽视。

Odds与Logit函数

逻辑回归的输入是一个线性组合,与线性回归一样,但输出变成了概率。而且逻辑回归用于预测两类问题,类似一个伯努利试验。假设在一个伯努利试验中,成功的概率是p,失败的概率是1−p,我们设逻辑回归的输出是成功的概率p,那么需要一个函数将逻辑回归的输入(一个线性组合)与p联系起来。下面介绍这个函数,它的名字叫Logit.我们定义:

Odds=p/(1-p)

上式很直观,表示成功的概率是失败概率的多少倍,中文叫做发生比
对Odds取自然对数:

ln(Odds)=ln(p/(1−p))=ln(p)−ln(1−p)

上式即为logit函数的定义,参数为p,记为:
logit(p)=ln(Odds)(3)

logit(p)的图像如下所示,可以看到它的定义域是[0,1],值域是R。
这里写图片描述
但我们要的是定义域是R,值域是[0,1].于是我们求(3)式的反函数,并将参数p用另一个参数α表示
这里写图片描述
上式中α可以取全体实数,而该函数的值域变成了(0,1),这正是我们想要的效果。logit(p)的反函数的名称就是我们常常听到的sigmoid函数。

基本介绍

LR分类器(Logistic Regression Classifier),在分类情形下,经过学习之后的LR分类器其实就是一组权值w0,w1,w2,…,wm.当测试样本集中的测试数据来到时,这一组权值按照与测试数据线性加和的方式,求出一个z值:

z = w0+ w1 * x1 + w2 * x2 + … + wm * xm 。(其中x1,x2,…,xm是样本数据的各个特征,维度为m)

之后按照sigmoid函数的形式求出:

sigma(z) = 1/(1+exp(z))

由于sigmoid函数的定义域是(-inf,inf),而值域为(0,1)。因此最基本的LR分类器适合对两类目标进行分类。那么LR分类器的这一组权值是如何求得的呢?这就需要涉及到极大似然估计MLE和梯度下降法的概念了。我们将sigmoid函数看成是样本数据的概率密度函数,每一个样本点,都可以通过上述的公式计算出其概率密度。

适用性

1) 可用于概率预测,也可用于分类。
并不是所有的机器学习方法都可以做可能性概率预测(比如SVM就不行,它只能得到1或者-1)。可能性预测的好处是结果又可比性:比如我们得到不同广告被点击的可能性后,就可以展现点击可能性最大的N个。这样以来,哪怕得到的可能性都很高,或者可能性都很低,我们都能取最优的topN。当用于分类问题时,仅需要设定一个阈值即可,可能性高于阈值是一类,低于阈值是另一类。
2) 仅能用于线性问题, 只有在feature和target是线性关系时,才能用Logistic Regression(不像SVM那样可以应对非线性问题)
这有两点指导意义,一方面当预先知道模型非线性时,果断不使用Logistic Regression; 另一方面,在使用Logistic Regression时注意选择和target呈线性关系的feature。
3) 各feature之间不需要满足条件独立假设,但各个feature的贡献是独立计算的。
逻辑回归不像朴素贝叶斯一样需要满足条件独立假设(因为它没有求后验概率)。但每个feature的贡献是独立计算的,即LR是不会自动帮你计算, 不同的features产生新feature的 (时刻不能抱有这种幻想,那是决策树,LSA, pLSA, LDA或者你自己要干的事情)。举个例子,如果你需TF*IDF这样的feature,就必须明确的给出来,若仅仅分别给出两维 TF 和 IDF 是不够的,那样只会得到类似 a*TF + b*IDF 的结果,而不会有 c*TF*IDF 的效果。

参考:
1)http://xiamaogeng.blog.163.com/blog/static/1670023742013231197530/
2)http://blog.csdn.net/jinping_shi/article/details/52326980

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值