二值选择模型

被解释变量是离散的,而非连续的,这就让人很头疼了。

  • 二值选择(binary choices):考研或者不考研、出国或者不出国、回国或者不回国……
  • 多值选择(multiple choices):走路、汽车,还是坐车;出国、考研还是就业……

这类模型被称为离散选择模型(discrete choice model)或定性反应模型(qualitative response model)。另外,有时被解释变量只能取非负整数,比如企业在某个时间内所获得的专利数,这类数据被称为计数数据(count data),其被解释变量也是离散的。

考虑到离散被解释变量的特点,通常不宜使用OLS进行回归

 一、二值选择模型(两种选择)

假设个体只有两种选择,比如 。是否考研,取决于毕业生毕业后的预期收入、个人兴趣等等,假设这些解释变量都被集成在向量 \boldsymbol x 中。于是,最简单的模型为线性概率模型(Linear Probability Model,LPM):
y_i = \boldsymbol x_i^\prime \boldsymbol\beta+\varepsilon_i,\quad i=1,\cdots,n
\boldsymbol\beta 的一致估计要求 {\rm Cov}(\boldsymbol x_i, \varepsilon_i)=0 (没有内生性)。然而,这里有几个问题:

 

 

  • 由于 ,于是 \varepsilon_i = 0-\boldsymbol x_i^\prime \boldsymbol\beta 。所以 {\rm Cov}(\boldsymbol x_i, \varepsilon_i) 必然不为0
  • 显然, x_{i} 服从两点分布,而非正态分布
  • 由于 有关,所以必然存在异方差(所以在检验的时候需要使用稳健的标准误,见教材第 7 章)
  • 尽管我们知道 y 非 1 即 0 ,但回归的时候总不可能这么巧 就是 1 或 0 的,看

 

 

 

尽管 LPM 有上面所提到的各种缺点,但它的优点是计算方便,而且容易分析经济意义。于是,为了使 y的预测值总是介于 之间,我们对 LPM 进行拓展:在给定 \boldsymbol x 的情况下,考虑 y 的两点分布概率为:
\left\{\begin{array}{l} \mathrm{P}(y=1 | \boldsymbol{x})=F(\boldsymbol{x}, \boldsymbol{\beta}) \\ \mathrm{P}(y=0 | \boldsymbol{x})=1-F(\boldsymbol{x}, \boldsymbol{\beta}) \end{array}\right.
于是,函数 F(\boldsymbol{x}, \boldsymbol{\beta}) 就被称为连接函数(link function),因为它将解释变量 \boldsymbol x 与被解释变量 y 链接起来。由于 y 的取值要么为 0 ,要么为 1 ,于是 y 一定服从两点分布

 

 

为了使y的预测值总是介于[0,1]之间, 在给定x的情况下,考虑y的两点分布概率:

连接函数的选择有一定的灵活性,通过选择合适的连接函数  可以保证  ,并将 \hat y 理解为 “ y=1 发生的概率”,因为:
\mathrm{E}(y | \boldsymbol{x})=1 \cdot \mathrm{P}(y=1 | \boldsymbol{x})+0 \cdot \mathrm{P}(y=0 | \boldsymbol{x})=\mathrm{P}(y=1 | \boldsymbol{x})

a. 如果F(X,\beta )为标准正态的累积分布函数(cdf),则

该模型成为“Probit”

 b. 如果F(X,\beta )为“逻辑分布”的累计分布函数,则

该模型成为“Logit”。由于逻辑分布累积分布函数有解析表达式,存在解释表达式,回归系数更好解释。Logit回归的系数,转换为or值后,表示的是p/1-p的大小

Probit模型没有经济意义,需要通过边际效应进行求值

二、经济意义

需要注意的是,在这个非线性模型中,估计量 并非边际效应(marginal effects)。以 Probit 为例,可以计算:

在这里使用了微分的链式法则(chain rule),并假设了 x_k 为连续变量。由于 Probit 和 Logit 所使用的分布函数不同,所以其参数并不可以直接比较,而是需要分别计算二者的边际效应,然后进行比较。然而,对于非线性模型而言,边际效应本身就不是常数,它随解释变量的变化而变化。常用的边际效应的概念有:

 

  • 平均边际效应(average marginal effect),分别计算每个样本的边际效应然后平均
  • 样本均值处的边际效应(marginal effect at mean),即在 处的边际效应
  • 在某个代表值处的边际效应(marginal effect at a representative value),求特点的边际效应

 以上三种边际效应的计算结果可能会有差异。传统上,计算样本均值处的边际效应比较简单;然而,在非线性模型中,样本均值处的个体行为通常不能代表个体的平均行为(average behavior of individuals differes from behavior of the average individual)。对于政策分析而言,平均边际效应比较有意义,也是 Stata 的默认方法

既然 并非边际效应,那他有什么经济意义呢?对于 Logit 模型,令 ,那么 1-p=\mathrm{P}(y=0 | x) ,由于 p=\frac{\exp \left(\boldsymbol{x}^{\prime} \boldsymbol{\beta}\right)}{1+\exp \left(\boldsymbol{x}^{\prime} \boldsymbol{\beta}\right)} ,于是:
其中,\frac{p}{1-p} 被称为 几率比(odds ratio)或相对风险(relative risk)。如果几率比为2,意味着 y=1 的概率是 y=0 两倍。对第二个等式的右边求导,我们可以发现 \hat{\boldsymbol \beta}_{MLE} 的意义是:若 x_j 增加一个微小的量,那么几率比的百分比则会增加 \hat{ \beta}_{j} 。所以,可以把 \hat{ \beta}_{j} 视为半弹性,即 x_j 增加一个单位引起几率比的百分比的变化。

例如, 表示 会引起几率比增加 12\% 。注意不是几率比本身变大 0.12,而是它增长了 12%

还有另外一个生物统计领域特别喜欢使用的意义,考虑 从而 p 变成了 p^\star ,于是新几率比与原先几率比的比率可以写成:
\frac{\frac{p^{*}}{1-p^{*}}}{\frac{p}{1-p}}=\frac{\exp \left[\beta_{1}+\beta_{2} x_{2}+\cdots+\beta_{j}\left(x_{j}+1\right)+\cdots+\beta_{K} x_{K}\right]}{\exp \left(\beta_{1}+\beta_{2} x_{2}+\cdots+\beta_{j} x_{j}+\cdots+\beta_{K} x_{K}\right)}=\exp \left(\beta_{j}\right)
所以,\exp \left(\hat\beta_{j}\right) 表示 x_j+1 引起的几率比的变化倍数

例如, 表示 会引起几率比变成原先的 1.12 倍,即增加了 13%

事实上,如果 比较小,两者方法是等价的( Taylor 展开)。然而,如果 必须变化一个单位(如性别、婚否),则应使用 \exp \left(\hat\beta_{j}\right) 。另外,Probit 模型无法对系数 \hat{\boldsymbol\beta}_{MLE} 进行类似的解释,这是 Probit 模型的劣势。

三、模型建模

1. Probit模型建模

probit union age grade black south  //probit建模
mfx                     //查看平均边际效应 
margins, dydx(*)        //查看平均边际效应 

 因为margins默认计算的是平均的边际效应,而 mfx 计算的是在样本均值处的边际效应。

(边际效应的解释:自变量没增加一单位,Y增加系数那么多单位)

2. Logit模型建模

logit union age grade black south
margins, dydx(*)                 //查看边际效应

结果发现,两个模型的回归系数、平均边际效应都非常接近。现实应用中,两个模型可以相互替换使用。

不过,Logit还多了一个非常重要的功能:计算OR值(生存比死亡)的功能。

logit union age grade black south, or

如果是0,1变量,eg.黑人(balck=1)的几率比是其它族裔的2.37倍,这说明黑人加入工会的概率要相对其它族裔大很多。

3. 查看预测准确度

estat classification

三、拟合优度

如何衡量一个非线性的模型的拟合优度呢?在不存在平方和分解公式的情况下, 是无法计算的,然而 Stata 依然汇报一个准R2(Pseudo ),由 McFadden (1974) 提出,其定义为:

其中,\ln L_1 为原模型的 LLF 最大值,而 \ln L_0以常数项为唯一解释变量的 LLF 的最大值。由于 y 是离散的两点分布,似然函数 LF 的最大可能值为 1,于是 LLF 的最大可能值为 0,记为 \ln L_{m ax} 。于是,必然有 0 \geqslant \ln L_{1} \geqslant \ln L_{0} ,于是 0 \leqslant \text { 准 } R^{2} \leqslant 1

 另外一类判断拟合优度的方法是计算正确预测的百分比,实际上我认为目前机器学习领域的一系列常用的拟合优度如 MSE、MAPE 等都可以使用。

四、多值选择模型

对于Y的取值有多种,比如学习成绩的A/B/C/D四类,则应该使用mlogit/mprobit模型。

  • 8
    点赞
  • 38
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值