如果因变量是二分变量,研究者往往会选择Logit模型进行拟合。
为什么传统的线性回归模型会被抛弃,原因主要有三点:
-
只能取0或1,这就违背了残差的正态性假设
- 残差的方差不是定值。
- 自变量和因变量之间关系的非线性。
最后一点尤为重要:
假如我们只用经典的线性模型对二分因变量进行拟合,有:
对两边取期望值:
当自变量取
联立式(2)和式(3),有:
注意,
这就必须对模型进行适当的调整。
考虑到因变量
这成功解决了
- 不够简单(这很重要)
- 一般来说,
和之间的关系,在和附近比较平缓,但线性模型不能反映这一特征。
我们希望有一个函数,对
标准正态分布的分布函数满足这一要求:
那么:
这就是所谓的 Probit 模型(Linear Probit model)
由于标准正态分布的分布函数的值域为
另外,由于标准正态分布的分布函数单调递增,所以:
其中,
Probit模型虽好,但也有一些小缺点。
一方面,他所使用的标准正态分布函数公式有些繁琐,另外,
所以,这里考虑另一个分布,逻辑斯蒂分布(Logistic Distribution):
当方差相等的时候,式(6)和式(9)两个公式的函数图像非常接近:
套用式(7):
同样,我们也可以将式(10)变化为反函数的形式:
式(11)是我们最常见到的逻辑斯蒂模型的形式。
对于式(11):
可以得到:
当
用式(13)除以式(12):
因此,结合式(12)和式(13)来看,自变量系数
这个
记得写本科毕业论文时,指导老师让我报告odds ratio,而不要报告
logit 模型内参数的主要通过极大似然估计(Maximum Likelihood Estimation)来获得。
该估计过程的简要逻辑如下:
首先,对于个体
通过一个数学上的技巧性处理,我们可以这样来表示
由于观测对象彼此独立,我们可以得到一个样本出现概率的方程:
在logit模型当中:
稍作变形可以得到:
将式(16)和式(17)代入式(15):
式(18)便是样本出现的概率关于
只需要使似然函数取极大值就可以了。
求得的似然函数的极大值,我们记为
在统计软件中,我们作logit回归时经常看到Log likelihood 这一指标。
其实,Log likelihood 就是对应模型下似然函数的极大值的对数,而residual deviance,它等于
由于
我们用
所谓的logit模型的伪决定系数(Pseudo R2),就是用当前模型的