编译:李琼琼 (山东大学)
Stata 连享会: 知乎 | 简书 | 码云 | CSDN
2020寒假Stata现场班
北京, 1月8-17日,连玉君-江艇主讲
2020连享会-文本分析与爬虫-现场班
(西安, 3月26-29日,司继春-游万海 主讲; 内附助教招聘)
目录
本文主要翻译自如下论文,并进行了适当的补充和调整.Source: Engel C, Moffatt P G. Dhreg, xtdhreg, and bootdhreg: Commands to implement double-hurdle regression[J]. Stata Journal, 2014, 14(4):778-797. [PDF]
背景介绍
双栏模型 (Double-hurdle model) 是由 Cragg (1971) 提出的:对于一个活动的参与,个体决策是由两部分组成的。第一个门槛 (hurdle), 决定个体是否是零类型;第二个门槛 (hurdle) 是在第一个阶段是非零的条件下,决定个体对活动的参与程度。这个模型的关键特征是这里有两种类型的零观测值,一种是无周围的环境如何变化他的选择都是零,另一种是他可以有非零选择但是目前的环境导致他选择零,后者也被称为归并零 (Tobin,1958) 。因此,双栏模型除了包括自然的零类型外,还允许零的概率由观测值的个体决定的。本质上,Double-hurdle 模型 是 Tobit 模型的延续。本文主要分三部分内容进行介绍:
- 1 双栏模型介绍
- 2 模型的实现
- 3 面板双栏模型
1. 双栏模型 (Double-hurdle model) 介绍
介绍双栏模型最自然的开始是先介绍 Tobit 模型,再来引入双栏模型。
1.1 Tobit 模型
Tobit 模型又被称为归并回归模型 (censored regression model), 根据 limit 的设置分为左归并 (lower censoring) 和右归并 (upper censoring),左归并指事先设置一个最小值 A,当被解释变量低于这个值时则自动等于 A。如果最低的 limit 为 0 时,被称为零归并 (zero censoring)。
上面的公式中潜变量 (最终无法直接被看到)代表个体 希望做出的贡献 (latent contribution), 这个潜在贡献可以为负值,但是试验规则认为只要为负值最终的贡献都归为 0 (规则如下):
这里以零归并举例,采用对数似然函数,估计模型如下:
其中 为示性函数,当下标所表示的条件正确时取值为 1,否则为 0。通过使 最大化来求出 和 。
1.2 Double - hurdle 模型
Double - hurdle 模型有两个阶段,这两个阶段分别采用 probit 估计和 tobit 估计:
在第一个阶段 (hurdle),被解释变量 () 是二元变量,由潜变量 决定。
在第二个阶段 (hurdle), 被解释变量 是零或者正数,非常像 Tobit 模型 (Ⅰ)。 双栏模型对数似然函数为:
上式中,双栏模型的第二个阶段给 设置了最小值 0 ,当然也可以将最小值设置为其他数 , 都被称为 lower hurdle。若最小值为 , 对数似然函数的变为:
若双栏模型是 upper hurdle 型,即第二个阶段设置一个最大值 , 所有超过 的值都等于 ,小于 的值则不改变,那么此时模型变为:
1.3 用图形解释 double hurdle 模型
上图中的的同心圆是 和 的联合分布,这个同心圆是以 , 为中心并根据解释变量的变动进行移动。在第二、三象限,由于 小于 0, 一直为 0,表现为个体永远不会 contribute