二值选择模型

最新推荐文章于 2022-12-16 11:57:27 发布

celine0227

最新推荐文章于 2022-12-16 11:57:27 发布

阅读量8.8k

点赞数 9

分类专栏： stata 公司金融文章标签： html

本文链接：https://blog.csdn.net/celine0227/article/details/120338024

版权

stata 同时被 2 个专栏收录

29 篇文章 44 订阅

订阅专栏

公司金融

14 篇文章 24 订阅

订阅专栏

被解释变量是离散的，而非连续的，这就让人很头疼了。

二值选择（binary choices）：考研或者不考研、出国或者不出国、回国或者不回国……
多值选择（multiple choices）：走路、汽车，还是坐车；出国、考研还是就业……

这类模型被称为离散选择模型（discrete choice model）或定性反应模型（qualitative response model）。另外，有时被解释变量只能取非负整数，比如企业在某个时间内所获得的专利数，这类数据被称为计数数据（count data），其被解释变量也是离散的。

考虑到离散被解释变量的特点，通常不宜使用OLS进行回归

一、二值选择模型（两种选择）

假设个体只有两种选择，比如和。是否考研，取决于毕业生毕业后的预期收入、个人兴趣等等，假设这些解释变量都被集成在向量 $\boldsymbol x$ 中。于是，最简单的模型为线性概率模型（Linear Probability Model，LPM）：
$y_i = \boldsymbol x_i^\prime \boldsymbol\beta+\varepsilon_i,\quad i=1,\cdots,n$
对 $\boldsymbol\beta$ 的一致估计要求 ${\rm Cov}(\boldsymbol x_i, \varepsilon_i)=0$ （没有内生性）。然而，这里有几个问题：

由于，于是或 $\varepsilon_i = 0-\boldsymbol x_i^\prime \boldsymbol\beta$ 。所以 ${\rm Cov}(\boldsymbol x_i, \varepsilon_i)$ 必然不为0
显然， $x_{i}$ 服从两点分布，而非正态分布
由于与有关，所以必然存在异方差（所以在检验的时候需要使用稳健的标准误，见教材第 7 章）
尽管我们知道 $y$ 非 1 即 0 ，但回归的时候总不可能这么巧就是 1 或 0 的，看图

尽管 LPM 有上面所提到的各种缺点，但它的优点是计算方便，而且容易分析经济意义。于是，为了使 $y$ 的预测值总是介于之间，我们对 LPM 进行拓展：在给定 $\boldsymbol x$ 的情况下，考虑的两点分布概率为：
$\left\{\begin{array}{l} \mathrm{P}(y=1 | \boldsymbol{x})=F(\boldsymbol{x}, \boldsymbol{\beta}) \\ \mathrm{P}(y=0 | \boldsymbol{x})=1-F(\boldsymbol{x}, \boldsymbol{\beta}) \end{array}\right.$
于是，函数 $F(\boldsymbol{x}, \boldsymbol{\beta})$ 就被称为连接函数（link function），因为它将解释变量 $\boldsymbol x$ 与被解释变量链接起来。由于的取值要么为 0 ，要么为 1 ，于是一定服从两点分布。

为了使y的预测值总是介于[0,1]之间，在给定x的情况下，考虑y的两点分布概率：

连接函数的选择有一定的灵活性，通过选择合适的连接函数可以保证，并将 $\hat y$ 理解为 “ y=1 发生的概率”，因为：
$\mathrm{E}(y | \boldsymbol{x})=1 \cdot \mathrm{P}(y=1 | \boldsymbol{x})+0 \cdot \mathrm{P}(y=0 | \boldsymbol{x})=\mathrm{P}(y=1 | \boldsymbol{x})$

a. 如果 $F(X,\beta )$ 为标准正态的累积分布函数(cdf)，则

该模型成为“Probit”

b. 如果 $F(X,\beta )$ 为“逻辑分布”的累计分布函数，则

该模型成为“Logit”。由于逻辑分布累积分布函数有解析表达式，存在解释表达式，回归系数更好解释。Logit回归的系数，转换为or值后，表示的是p/1-p的大小。

Probit模型没有经济意义，需要通过边际效应进行求值

二、经济意义

需要注意的是，在这个非线性模型中，估计量并非边际效应（marginal effects）。以 Probit 为例，可以计算：

在这里使用了微分的链式法则（chain rule），并假设了 x_k 为连续变量。由于 Probit 和 Logit 所使用的分布函数不同，所以其参数并不可以直接比较，而是需要分别计算二者的边际效应，然后进行比较。然而，对于非线性模型而言，边际效应本身就不是常数，它随解释变量的变化而变化。常用的边际效应的概念有：

平均边际效应（average marginal effect），分别计算每个样本的边际效应然后平均
样本均值处的边际效应（marginal effect at mean），即在处的边际效应
在某个代表值处的边际效应（marginal effect at a representative value），求特点的边际效应

以上三种边际效应的计算结果可能会有差异。传统上，计算样本均值处的边际效应比较简单；然而，在非线性模型中，样本均值处的个体行为通常不能代表个体的平均行为（average behavior of individuals differes from behavior of the average individual）。对于政策分析而言，平均边际效应比较有意义，也是 Stata 的默认方法。

既然并非边际效应，那他有什么经济意义呢？对于 Logit 模型，令，那么 $1-p=\mathrm{P}(y=0 | x)$ ，由于 $p=\frac{\exp \left(\boldsymbol{x}^{\prime} \boldsymbol{\beta}\right)}{1+\exp \left(\boldsymbol{x}^{\prime} \boldsymbol{\beta}\right)}$ ，于是：
其中， $\frac{p}{1-p}$ 被称为 几率比（odds ratio）或相对风险（relative risk）。如果几率比为2，意味着 y=1 的概率是 y=0 两倍。对第二个等式的右边求导，我们可以发现 $\hat{\boldsymbol \beta}_{MLE}$ 的意义是：若 x_j 增加一个微小的量，那么几率比的百分比则会增加 $\hat{ \beta}_{j}$ 。所以，可以把 $\hat{ \beta}_{j}$ 视为半弹性，即 x_j 增加一个单位引起几率比的百分比的变化。

例如，表示会引起几率比增加 $12\%$ 。注意不是几率比本身变大 0.12，而是它增长了 12%

还有另外一个生物统计领域特别喜欢使用的意义，考虑从而 p 变成了 $p^\star$ ，于是新几率比与原先几率比的比率可以写成：
$\frac{\frac{p^{*}}{1-p^{*}}}{\frac{p}{1-p}}=\frac{\exp \left[\beta_{1}+\beta_{2} x_{2}+\cdots+\beta_{j}\left(x_{j}+1\right)+\cdots+\beta_{K} x_{K}\right]}{\exp \left(\beta_{1}+\beta_{2} x_{2}+\cdots+\beta_{j} x_{j}+\cdots+\beta_{K} x_{K}\right)}=\exp \left(\beta_{j}\right)$
所以， $\exp \left(\hat\beta_{j}\right)$ 表示 x_j+1 引起的几率比的变化倍数。

例如，表示会引起几率比变成原先的 1.12 倍，即增加了 13%

事实上，如果比较小，两者方法是等价的（ Taylor 展开）。然而，如果必须变化一个单位（如性别、婚否），则应使用 $\exp \left(\hat\beta_{j}\right)$ 。另外，Probit 模型无法对系数 $\hat{\boldsymbol\beta}_{MLE}$ 进行类似的解释，这是 Probit 模型的劣势。

三、模型建模

1. Probit模型建模

probit union age grade black south  //probit建模
mfx                     //查看平均边际效应 
margins, dydx(*)        //查看平均边际效应

因为margins默认计算的是平均的边际效应，而 mfx 计算的是在样本均值处的边际效应。

（边际效应的解释：自变量没增加一单位，Y增加系数那么多单位）

2. Logit模型建模

logit union age grade black south
margins, dydx(*)                 //查看边际效应

结果发现，两个模型的回归系数、平均边际效应都非常接近。现实应用中，两个模型可以相互替换使用。

不过，Logit还多了一个非常重要的功能：计算OR值（生存比死亡）的功能。

logit union age grade black south, or

如果是0,1变量，eg.黑人（balck=1）的几率比是其它族裔的2.37倍，这说明黑人加入工会的概率要相对其它族裔大很多。

3. 查看预测准确度

estat classification

三、拟合优度

如何衡量一个非线性的模型的拟合优度呢？在不存在平方和分解公式的情况下，是无法计算的，然而 Stata 依然汇报一个准R2（Pseudo ），由 McFadden (1974) 提出，其定义为：

其中， $\ln L_1$ 为原模型的 LLF 最大值，而 $\ln L_0$ 为以常数项为唯一解释变量的 LLF 的最大值。由于是离散的两点分布，似然函数 LF 的最大可能值为 1，于是 LLF 的最大可能值为 0，记为 $\ln L_{m ax}$ 。于是，必然有 $0 \geqslant \ln L_{1} \geqslant \ln L_{0}$ ，于是 $0 \leqslant \text { 准 } R^{2} \leqslant 1$ 。