关闭

logistic回归深入篇(1)

441人阅读 评论(0) 收藏 举报
分类:


很早就接触到logistics regression,一直对其有几个点没有想明白,其中比较大的困惑就是为什么左边的公式要选择ln(p/1-p)而不是其他的公式,还有就是为什么一般将p=0.5作为正负样本的区分点

前言:本文讨论的是线性范畴

其实,要想想明白以上的问题,还得再多想一层,logistics regression(LR)存在的价值是什么?简单来讲,其初衷最初是为了解决因变量为二元状态的情况。再回忆一下多元线性回归的方程。(后续,本文用z表示公式右边的)

image

可以很明显的看出y的取值范围是负无穷到正无穷,那么自然,对于y是二元的情况,支持并不是很好。

那如何对左边做一些变化,让其可以较好的支持到这种情况呢?需同时满足两个条件,1)变化函数的域值需在负无穷到正无穷,2)需有一个变量能够很好的表现二元的情况,而这个变量本身是连续的但是又可以表示一定的倾向性。从这两个启发中,我们已经可以初见端倪了,函数应该是LOG函数了,而变量应该是概率p了,至此算是解开了LOG函数出现的谜团了

那为什么这个LOG函数不是lnP呢?而是ln(p/1-p)这样的函数形式呢?还记得第二个需求吧,p,p的范围是0-1,如果公式是lnp=z,那么p=exp(z),是一个典型的指数函数,函数的域值是大于0,小于无穷,而不是我们所期望的小于1了,至此,我们知道了我们的期望是能够构造出来的p的雏形了,那么我们试着构造一下0-1之间的p,p必须得小于1,那么函数形式应该为p=1-x,再进一步观察“x”应该是个取值为0-1的函数形式,那么有了p=1-1/x,再进一步这时“x”需要是个大于1的数,那么又有了p=1-1/(1+x),那么最后这个“x”是什么呢,域值大于0即可了?这时,是不是感觉有点耳熟呢,结合ln?=z这个目标公式去看,我们需要构造f(exp(z))这样的函数,那么这个x义不容辞就是exp(z)了,这样我们的公式完整了:

p=1-1/(1+exp(z))

进行公式变换,我们得到ln(p/1-p)=z,这样LOG函数是ln(p/1-p)这个谜团也解开了。

至此,我们回答了引言中的第一个困惑,那么我们来看看第二个困惑。首先,我们将Z与P的图画了出来,这时一个倒S形的图,可以发现图像先平稳前进突然骤然上升然后又平稳向前,从整体来说,这样的图像是棱角比较分明的,有很好的区分性,我们再细看一下,图的中心在Z=0,P=0.5处,往左走,P的取值全部小于0.5,往右走,P的取值全部大于0.5,这时,应该会明白了,为什么最后用LR算法,一般是取0.5为正负样本预测的边界了。因此,这样可以说明,如果建立出来的LR模型比较靠谱的时候,用0.5作为分界点即可了。

image

0
0

猜你在找
【直播】机器学习&数据挖掘7周实训--韦玮
【套餐】系统集成项目管理工程师顺利通关--徐朋
【直播】3小时掌握Docker最佳实战-徐西宁
【套餐】机器学习系列套餐(算法+实战)--唐宇迪
【直播】计算机视觉原理及实战--屈教授
【套餐】微信订阅号+服务号Java版 v2.0--翟东平
【直播】机器学习之矩阵--黄博士
【套餐】微信订阅号+服务号Java版 v2.0--翟东平
【直播】机器学习之凸优化--马博士
【套餐】Javascript 设计模式实战--曾亮
查看评论
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
    个人资料
    • 访问:196286次
    • 积分:2321
    • 等级:
    • 排名:第16079名
    • 原创:6篇
    • 转载:192篇
    • 译文:0篇
    • 评论:16条
    文章分类
    最新评论