阅读全文:Stata:testex-控制函数法中排他性约束的检验和应对 (lianxh.cn)
作者:罗清扬 (中山大学)
邮箱:luoqy27@mail2.sysu.edu.cn
1. 控制函数法介绍
1.1 概述
内生性是实证研究中常常会碰到的重要问题,长期以来,学者们从不同的思路和视角出发,为内生性问题的解决提供了多种多样的思路和方法。
控制函数法 (Control Function,CF) 是处理内生性变量问题的一个常用方法。和传统的 2SLS、IV 估计等方法一样,CF 也需要找到满足外生性条件和排他性约束的工具变量,并通过两阶段回归得到参数估计值。但不同于 2SLS 直接用第一阶段回归的拟合值替换原内生变量,CF 是将第一阶段回归的残差项作为新的控制变量加入原始模型中,相当于从原始模型的残差项中将与内生变量相关的部分单独提取出来进行控制。
在一些设定较为简单的模型中,CF 和 2SLS、IV 方法得到的估计结果是相同的,但 CF 可以更加方便且稳健地进行赫斯曼检验。另外,与传统工具变量法相比,CF 方法在随机系数模型和非线性模型的估计中效率更高,适用范围更广。
Jeffrey M. Wooldridge (2015) 系统地总结了 CF 方法在不同模型中的用法,下面选取其中常用且较有代表性的几个进行简析。
1.2 常系数线性模型
1.2.1 内生变量为连续变量
对于系数固定的线性模型而言,CF 法和 2SLS、IV 估计得出的结果是一致的。基本模型如下所示:
y1=Z1′δ1+γ1y2+u1(1)y1=Z1′δ1+γ1y2+u1(1)
其中 y2y2 是内生变量,Z1′Z1′ 是外生变量 (包含一个常数项)。CF 法首先会将内生变量对全部外生变量 (Z1′Z1′ 和工具变量 Z2′Z2′) 进行回归:
y2=Z1′Π1+Z2′Π2+v2(2)y2=Z1′Π1+Z2′Π2+v2(2)
其中 Cov(Z1,v2)=Cov(Z2,v2)=0Cov(Z1,v2)=Cov(Z2,v2)=0。从 (2) 中得到残差项 v2v2 的拟合值 v^2v^2:
v^2=y2−Z1′Π^1−Z2′Π^2(3)v^2=y2−Z1′Π^1−Z2′Π^2(3)
假设 v2v2 和 u1u1 之前存在线性关系:
u1=ρ1v2+e1(4)u1=ρ1v2+e1(4)
其中 Cov(v2,e1)=0Cov(v2,e1)=0。用拟合值代替 v2v2,将 (4) 带入 (1) 得到:
y1=Z1′δ1+γ1y2+v^2ρ1+e1(5)y1=Z1′δ1+γ1y2+v^2ρ1+e1(5)
新得到的方程 (5) 中,扰动项 e1e1 与全部解释变量都满足外生性,可以进行 OLS 估计。这类简单模型中,2SLS 和 CF 得到的参数估计结果一致,后者反而还使得获取正确的参数标准差变得更加困难。但 CF 也有其独特的优势:可以为 Hausman 检验提供异方差稳健且直观的指示,只需检验 H0:ρ1=0H0:ρ1=0 即可。
1.2.2 内生变量为二元变量
当内生变量为二元变量时,整体建模思路和之前基本一致,唯一的区别就在于第一阶段 (方程 2) 不再是对内生变量进行线性建模,而是建立一个会产生二元响应的模型,如下所示:
y2=1[Zδ2+e2>0](6)y2=1[Zδ2+e2>0](6)
e2∼N(0,1)(7)e2∼N(0,1)(7)
其中 Z=[Z1,Z2]Z=[Z1,Z2]。根据对 e2e2 分布以及其他一些关于扰动项条件分布的假设,Wooldridge (2010, Section 21.4.2) 推出:
E(y1∣Z,y2)=Z1δ2+γ1y2+η1r2(8)E(y1∣Z,y2)=Z1δ2+γ1y2+η1r2(8)
r2=y2λ(Zδ2)−(1−y2)λ(−Zδ2)(9)r2=y2λ(Zδ2)−(1−y2)λ(−Zδ2)(9)
其中 λ(⋅)=ϕ(⋅)/Φ(⋅)λ(⋅)=ϕ(⋅)/Φ(⋅),即逆米尔斯比率。r2r2 可以作为第一阶段回归得到的一个广义误差项来理解:估计时先对 (6) 进行估计,得到 δ^2δ^2;然后带入 (9) 得到 r^2r^2,最后只需将 (5) 中的 v^2v^2 变为 r^2r^2 进行估计即可。
1.2.3 内生变量非线性
在更广泛的应用场景中,如果内生变量是非线性的,例如与外生变量进行交乘或者以高次方形式出现时,传统的 IV 估计或 2SLS 需要为含有内生变量的所有项分别寻找或创造可靠的工具变量,而 CF 法依旧可以采取与之前完全相同的两阶段回归进行估计,整个过程显得更加高效便利。
然而,CF 方法的便利性也并不是没有代价的,CF 估计过程的无偏性依赖于第一阶段回归中对内生变量模型设定的准确性。如果设定错误,那么最终的系数估计结果将是有偏的,这个问题在 IV 或 2SLS 估计中则不会出现。