logit回归模型_Logit 模型怎么来的(速记)

如果因变量是二分变量,研究者往往会选择Logit模型进行拟合。

为什么传统的线性回归模型会被抛弃,原因主要有三点:

  • 只能取0或1,这就违背了残差的正态性假设
  • 残差的方差不是定值。
  • 自变量和因变量之间关系的非线性。

最后一点尤为重要:

假如我们只用经典的线性模型对二分因变量进行拟合,有:

对两边取期望值:

当自变量取

时,设有
可能性
;有
可能性
。所以:

联立式(2)和式(3),有:

注意,

,但线性回归线性模型并不能处理因变量分布受限的情况。

这就必须对模型进行适当的调整。


考虑到因变量

,一个想当然的调整方法,是将原有线性模型进行分段:

这成功解决了

的值域问题,但这个模型有两个缺点:
  • 不够简单(这很重要)
  • 一般来说,
    之间的关系,在
    附近比较平缓,但线性模型不能反映这一特征。

我们希望有一个函数,对

进行处理,从而可以取得与式(5)中等号右边分段函数相似的效果,还具有我们所期望的形态。

标准正态分布的分布函数满足这一要求:

那么:

这就是所谓的 Probit 模型(Linear Probit model)

由于标准正态分布的分布函数的值域为

,这不仅起到了和式(5)相同的对值域的限制作用,而且在函数形态而且形态上也满足我们的期待(函数两端的斜率比较平缓)。

另外,由于标准正态分布的分布函数单调递增,所以:

其中,

为分布函数的反函数。

Probit模型虽好,但也有一些小缺点。

一方面,他所使用的标准正态分布函数公式有些繁琐,另外,

的意义并不太好解释。

所以,这里考虑另一个分布,逻辑斯蒂分布(Logistic Distribution):

当方差相等的时候,式(6)和式(9)两个公式的函数图像非常接近:

db51ff5d84635bbe4faa1f17ab4985df.png
实线为正态分布,虚线为逻辑斯蒂分布

套用式(7):

同样,我们也可以将式(10)变化为反函数的形式:

式(11)是我们最常见到的逻辑斯蒂模型的形式。


对于式(11):

可以得到:

被定义为发生比(odds),记为

,式(12)变为:

用式(13)除以式(12):

因此,结合式(12)和式(13)来看,自变量系数

所反映的,是对应自变量
每增加一个单位,发生比odds便扩大为原来的
倍。

这个

被称为发生比的比值(odds ratio)。

记得写本科毕业论文时,指导老师让我报告odds ratio,而不要报告

。因为前者的含义更加直观一些。

logit 模型内参数的主要通过极大似然估计(Maximum Likelihood Estimation)来获得。

该估计过程的简要逻辑如下:

首先,对于个体

,他的因变量
可以有两个取值,0或1,分别对应的概率为

通过一个数学上的技巧性处理,我们可以这样来表示

的分布:

0 或 1,这个处理非常的巧妙。

由于观测对象彼此独立,我们可以得到一个样本出现概率的方程:

在logit模型当中:

稍作变形可以得到:

将式(16)和式(17)代入式(15):

式(18)便是样本出现的概率关于

似然函数

只需要使似然函数取极大值就可以了。


求得的似然函数的极大值,我们记为

在统计软件中,我们作logit回归时经常看到Log likelihood 这一指标。

其实,Log likelihood 就是对应模型下似然函数的极大值的对数,而residual deviance,它等于

由于

越大证明模型越好,所以
越大证明模型越好,也就是
越小越好。

我们用

来类比OLS线性模型中的残差的平方和的概念。

所谓的logit模型的伪决定系数(Pseudo R2),就是用当前模型的

来和没有任何自变量的模型的
作比较:

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值