编译:李琼琼 (山东大学)
文章目录
本文主要翻译自如下论文,并进行了适当的补充和调整.
Source: Engel C, Moffatt P G. Dhreg, xtdhreg, and bootdhreg: Commands to implement double-hurdle regression[J]. Stata Journal, 2014, 14(4):778-797. [PDF]
背景介绍
双栏模型 (Double-hurdle model) 是由 Cragg (1971) 提出的:对于一个活动的参与,个体决策是由两部分组成的。第一个门槛 (hurdle), 决定个体是否是零类型;第二个门槛 (hurdle) 是在第一个阶段是非零的条件下,决定个体对活动的参与程度。这个模型的关键特征是这里有两种类型的零观测值,一种是无周围的环境如何变化他的选择都是零,另一种是他可以有非零选择但是目前的环境导致他选择零,后者也被称为归并零 (Tobin,1958) 。因此,双栏模型除了包括自然的零类型外,还允许零的概率由观测值的个体决定的。本质上,Double-hurdle 模型 是 Tobit 模型的延续。本文主要分三部分内容进行介绍:
- 1 双栏模型介绍
- 2 模型的实现
- 3 面板双栏模型
1. 双栏模型 (Double-hurdle model) 介绍
介绍双栏模型最自然的开始是先介绍 Tobit 模型,再来引入双栏模型。
1.1 Tobit 模型
Tobit 模型又被称为归并回归模型 (censored regression model), 根据 limit 的设置分为左归并 (lower censoring) 和右归并 (upper censoring),左归并指事先设置一个最小值 A,当被解释变量低于这个值时则自动等于 A。 如果最低的 limit 为 0 时,被称为零归并 (zero censoring)。
y i ∗ = x i ′ β + ε i ε i ∼ N ( 0 , σ 2 ) \begin{aligned} y_{i}^{*} &=\mathbf{x}_{i}^{\prime} \boldsymbol{\beta}+\varepsilon_{i} \\ \varepsilon_{i} & \sim N\left(0, \sigma^{2}\right) \end{aligned} yi∗εi=xi′β+εi∼N(0,σ2)
上面的公式中潜变量 y i ∗ y_{i}^{*} yi∗ (最终无法直接被看到)代表个体 i i i 希望做出的贡献 (latent contribution), 这个潜在贡献可以为负值,但是试验规则认为只要为负值最终的贡献都归为 0 (规则如下):
y i = { y i ∗ if y i ∗ > 0 0 if y i ∗ ⩽ 0 y_{i}=\left\{\begin{array}{cl}{y_{i}^{*}} & {\text { if } y_{i}^{ *}>0} \\ {0} & {\text { if } y_{i}^{ *}\leqslant0}\end{array}\right. yi={ yi∗0 if yi∗>0 if yi∗⩽0
这里以零归并举例,采用对数似然函数,估计模型如下:
log L = ∑ i = 1 n [ I y i = 0 ln { Φ ( − x i ′ β σ ) } + I y i > 0 ln { 1 σ ϕ ( y i − x i ′ β σ ) } ] \log L=\sum_{i=1}^{n}\left[I_{y_{i}=0} \ln \left\{\Phi\left(-\frac{\mathbf{x}_{i}^{\prime} \boldsymbol{\beta}}{\sigma}\right)\right\}+I_{y_{i}>0} \ln \left\{\frac{1}{\sigma} \phi\left(\frac{y_{i}-\mathbf{x}_{i}^{\prime} \boldsymbol{\beta}}{\sigma}\right)\right\}\right] logL=i=1∑n[Iyi=0ln{
Φ(−σxi′β)}+Iyi>0ln{
σ1ϕ(σyi−xi′β)}]
其中 I I I 为示性函数,当下标所表示的条件正确时取值为 1,否则为 0。通过使 log L \log L logL 最大化来求出 β \beta β 和 σ \sigma σ。
1.2 Double - hurdle 模型
Double - hurdle 模型有两个阶段,这两个阶段分别采用 probit 估计和 tobit 估计:
d i ∗ = z i ′ α + ε 1 , i y i ∗ ∗ = x i ′ β + ε 2 , i ( ε 1 , i ε 2 , i ) ∼ N [ ( 0 0 ) , ( 1 0 0 σ 2 ) ] \begin{aligned} d_{i}^{*} &=\mathbf{z}_{i}^{\prime} \boldsymbol{\alpha}+\varepsilon_{1, i} \\ y_{i}^{* *} &=\mathbf{x}_{i}^{\prime} \boldsymbol{\beta}+\varepsilon_{2, i} \\\left(\begin{array}{c}{\varepsilon_{1, i}} \\ {\varepsilon_{2, i}}\end{array}\right) & \sim N\left[\left(\begin{array}{l}{0} \\ {0}\end{array}\right),\left(\begin{array}{cc}{1} & {0} \\ {0} & {\sigma^{2}}\end{array}\right)\right] \end{aligned} di∗yi∗∗(ε1,iε2,i)=zi′α+ε1,i=xi′β+ε2,i∼N[(00),(100σ2)]
在第一个阶段 (hurdle),被解释变量 ( d i d_i di) 是二元变量,由潜变量 d i ∗ d_i^{*} di∗ 决定。
d i = { d i ∗ if d i ∗ > 0 0 if d i ∗ ⩽ 0 d_{i}=\left\{\begin{array}{cl}{d_{i}^{*}} & {\text { if } d_{i}^{ *}>0} \\ {0} & {\text { if } d_{i}^{ *}\leqslant0}\end{array}\right. di={ di∗0 if di∗>0 if di∗⩽0
在第二个阶段 (hurdle), 被解释变量 y i ∗ y_{i}^{*} yi∗ 是零或者正数,非常像 Tobit 模型 (Ⅰ)。 y i ∗ = max ( y i ∗ ∗ , 0 ) y_{i}^{*}=\max \left(y_{i}^{* *}, 0\right) yi∗=max(yi∗∗,0)
双栏模型对数似然函数为:
log L = ∑ 0 ln { 1 − Φ ( z i ′ α ) Φ ( x i ′ β σ ) } + ∑ + ln { Φ ( z i ′ α ) 1 σ ϕ ( y i − x i ′ β σ ) } \log L=\sum_{0} \ln \left\{1-\Phi\left(\mathbf{z}_{i}^{\prime} \boldsymbol{\alpha}\right) \Phi\left(\frac{\mathbf{x}_{i}^{\prime} \boldsymbol{\beta}}{\sigma}\right)\right\}+\sum_{+} \ln \left\{\Phi\left(\mathbf{z}_{i}^{\prime} \boldsymbol{\alpha}\right) \frac{1}{\sigma} \phi\left(\frac{y_{i}-\mathbf{x}_{i}^{\prime} \boldsymbol{\beta}}{\sigma}\right)\right\} logL=0∑ln{ 1−Φ(zi′α)Φ(σxi′β)}++∑ln{ Φ(zi′α)σ1