Stata: 双栏模型简介 (Double-hurdle model)

最新推荐文章于 2023-03-28 16:38:30 发布

arlionn

最新推荐文章于 2023-03-28 16:38:30 发布

阅读量6.1k

点赞数

分类专栏：处理效应模型文章标签：双栏模型

连享会 ( lianxh.cn ) 原创，转载申请：StataChina@163.com

本文链接：https://blog.csdn.net/arlionn/article/details/102829267

版权

编译：李琼琼 (山东大学)

Stata 连享会：知乎 | 简书 | 码云 | CSDN

Stata连享会计量专题 || 简书推文

文章目录

本文主要翻译自如下论文，并进行了适当的补充和调整.
Source： Engel C, Moffatt P G. Dhreg, xtdhreg, and bootdhreg: Commands to implement double-hurdle regression[J]. Stata Journal, 2014, 14(4):778-797. [PDF]

背景介绍

双栏模型 (Double-hurdle model) 是由 Cragg (1971) 提出的：对于一个活动的参与，个体决策是由两部分组成的。第一个门槛 (hurdle), 决定个体是否是零类型；第二个门槛 (hurdle) 是在第一个阶段是非零的条件下，决定个体对活动的参与程度。这个模型的关键特征是这里有两种类型的零观测值，一种是无周围的环境如何变化他的选择都是零，另一种是他可以有非零选择但是目前的环境导致他选择零，后者也被称为归并零 (Tobin,1958) 。因此，双栏模型除了包括自然的零类型外，还允许零的概率由观测值的个体决定的。本质上，Double-hurdle 模型是 Tobit 模型的延续。本文主要分三部分内容进行介绍：

1 双栏模型介绍
2 模型的实现
3 面板双栏模型

1. 双栏模型 (Double-hurdle model) 介绍

介绍双栏模型最自然的开始是先介绍 Tobit 模型，再来引入双栏模型。

1.1 Tobit 模型

Tobit 模型又被称为归并回归模型 (censored regression model)，根据 limit 的设置分为左归并 (lower censoring) 和右归并 (upper censoring)，左归并指事先设置一个最小值 A，当被解释变量低于这个值时则自动等于 A。如果最低的 limit 为 0 时，被称为零归并 (zero censoring)。

$\begin{aligned} y_{i}^{*} &=\mathbf{x}_{i}^{\prime} \boldsymbol{\beta}+\varepsilon_{i} \\ \varepsilon_{i} & \sim N\left(0, \sigma^{2}\right) \end{aligned}$

上面的公式中潜变量 $y_{i}^{*}$ (最终无法直接被看到）代表个体 $i$ 希望做出的贡献 (latent contribution)，这个潜在贡献可以为负值，但是试验规则认为只要为负值最终的贡献都归为 0 (规则如下）：

$y_{i}=\left\{\begin{array}{cl}{y_{i}^{*}} & {\text { if } y_{i}^{ *}>0} \\ {0} & {\text { if } y_{i}^{ *}\leqslant0}\end{array}\right.$

这里以零归并举例，采用对数似然函数，估计模型如下：
$\log L=\sum_{i=1}^{n}\left[I_{y_{i}=0} \ln \left\{\Phi\left(-\frac{\mathbf{x}_{i}^{\prime} \boldsymbol{\beta}}{\sigma}\right)\right\}+I_{y_{i}>0} \ln \left\{\frac{1}{\sigma} \phi\left(\frac{y_{i}-\mathbf{x}_{i}^{\prime} \boldsymbol{\beta}}{\sigma}\right)\right\}\right]$
其中 $I$ 为示性函数，当下标所表示的条件正确时取值为 1，否则为 0。通过使 $\log L$ 最大化来求出 $\beta$ 和 $\sigma$ 。

1.2 Double - hurdle 模型

Double - hurdle 模型有两个阶段，这两个阶段分别采用 probit 估计和 tobit 估计：

$\begin{aligned} d_{i}^{*} &=\mathbf{z}_{i}^{\prime} \boldsymbol{\alpha}+\varepsilon_{1, i} \\ y_{i}^{* *} &=\mathbf{x}_{i}^{\prime} \boldsymbol{\beta}+\varepsilon_{2, i} \\\left(\begin{array}{c}{\varepsilon_{1, i}} \\ {\varepsilon_{2, i}}\end{array}\right) & \sim N\left[\left(\begin{array}{l}{0} \\ {0}\end{array}\right),\left(\begin{array}{cc}{1} & {0} \\ {0} & {\sigma^{2}}\end{array}\right)\right] \end{aligned}$

在第一个阶段 (hurdle)，被解释变量 ( $d_i$ ) 是二元变量,由潜变量 $d_i^{*}$ 决定。

$d_{i}=\left\{\begin{array}{cl}{d_{i}^{*}} & {\text { if } d_{i}^{ *}>0} \\ {0} & {\text { if } d_{i}^{ *}\leqslant0}\end{array}\right.$

在第二个阶段 (hurdle), 被解释变量 $y_{i}^{*}$ 是零或者正数，非常像 Tobit 模型 (Ⅰ)。 $y_{i}^{*}=\max \left(y_{i}^{* *}, 0\right)$
双栏模型对数似然函数为：

$\log L=\sum_{0} \ln \left\{1-\Phi\left(\mathbf{z}_{i}^{\prime} \boldsymbol{\alpha}\right) \Phi\left(\frac{\mathbf{x}_{i}^{\prime} \boldsymbol{\beta}}{\sigma}\right)\right\}+\sum_{+} \ln \left\{\Phi\left(\mathbf{z}_{i}^{\prime} \boldsymbol{\alpha}\right) \frac{1}{\sigma} \phi\left(\frac{y_{i}-\mathbf{x}_{i}^{\prime} \boldsymbol{\beta}}{\sigma}\right)\right\}$