logit回归模型_Logit 模型怎么来的（速记）

最新推荐文章于 2024-06-19 14:43:37 发布

weixin_39774644

最新推荐文章于 2024-06-19 14:43:37 发布

阅读量1.6k

点赞数 1

文章标签： logit回归模型

如果因变量是二分变量，研究者往往会选择Logit模型进行拟合。

为什么传统的线性回归模型会被抛弃，原因主要有三点：

只能取0或1，这就违背了残差的正态性假设
残差的方差不是定值。
自变量和因变量之间关系的非线性。

最后一点尤为重要：

假如我们只用经典的线性模型对二分因变量进行拟合，有：

对两边取期望值：

当自变量取

时，设有

可能性

；有

可能性

。所以：

联立式（2）和式（3），有：

注意，

，但线性回归线性模型并不能处理因变量分布受限的情况。

这就必须对模型进行适当的调整。

考虑到因变量

，一个想当然的调整方法，是将原有线性模型进行分段：

这成功解决了

的值域问题，但这个模型有两个缺点：

不够简单（这很重要）
一般来说，
和

之间的关系，在

和

附近比较平缓，但线性模型不能反映这一特征。

我们希望有一个函数，对

进行处理，从而可以取得与式（5）中等号右边分段函数相似的效果，还具有我们所期望的形态。

标准正态分布的分布函数满足这一要求：

那么：

这就是所谓的 Probit 模型（Linear Probit model）

由于标准正态分布的分布函数的值域为

，这不仅起到了和式（5）相同的对值域的限制作用，而且在函数形态而且形态上也满足我们的期待（函数两端的斜率比较平缓）。

另外，由于标准正态分布的分布函数单调递增，所以：

其中，

为分布函数的反函数。

Probit模型虽好，但也有一些小缺点。

一方面，他所使用的标准正态分布函数公式有些繁琐，另外，

的意义并不太好解释。

所以，这里考虑另一个分布，逻辑斯蒂分布（Logistic Distribution）:

当方差相等的时候，式（6）和式（9）两个公式的函数图像非常接近：

实线为正态分布，虚线为逻辑斯蒂分布

套用式（7）：

同样，我们也可以将式（10）变化为反函数的形式：

式（11）是我们最常见到的逻辑斯蒂模型的形式。

对于式（11）：

可以得到：

被定义为发生比（odds），记为

当

，式（12）变为：

用式（13）除以式（12）：

因此，结合式（12）和式（13）来看，自变量系数

所反映的，是对应自变量

每增加一个单位，发生比odds便扩大为原来的

倍。

这个

被称为发生比的比值（odds ratio）。

记得写本科毕业论文时，指导老师让我报告odds ratio，而不要报告

。因为前者的含义更加直观一些。

logit 模型内参数的主要通过极大似然估计（Maximum Likelihood Estimation）来获得。

该估计过程的简要逻辑如下：

首先，对于个体

，他的因变量

可以有两个取值，0或1，分别对应的概率为

和

通过一个数学上的技巧性处理，我们可以这样来表示

的分布：

0 或 1，这个处理非常的巧妙。

由于观测对象彼此独立，我们可以得到一个样本出现概率的方程：

在logit模型当中：

稍作变形可以得到：

将式（16）和式（17）代入式（15）：

式（18）便是样本出现的概率关于

的

似然函数

只需要使似然函数取极大值就可以了。

求得的似然函数的极大值，我们记为

。

在统计软件中，我们作logit回归时经常看到Log likelihood 这一指标。

其实，Log likelihood 就是对应模型下似然函数的极大值的对数，而residual deviance，它等于

由于

越大证明模型越好，所以

越大证明模型越好，也就是

越小越好。

我们用

来类比OLS线性模型中的残差的平方和的概念。

所谓的logit模型的伪决定系数（Pseudo R2），就是用当前模型的

来和没有任何自变量的模型的

作比较：

weixin_39774644

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
logit回归模型_Logit 模型怎么来的（速记）

如果因变量是二分变量，研究者往往会选择Logit模型进行拟合。为什么传统的线性回归模型会被抛弃，原因主要有三点：只能取0或1，这就违背了残差的正态性假设残差的方差不是定值。自变量和因变量之间关系的非线性。最后一点尤为重要：假如我们只用经典的线性模型对二分因变量进行拟合，有：对两边取期望值：当自变量取时，设有可能性；有可能性。所以：联立式（2）和式（3），有：注意， ...
复制链接

扫一扫