1.为什么要用工具变量
解决内生性问题,自变量
x
1
x_1
x1与残差
μ
\mu
μ相关,即
C
O
V
(
x
1
,
μ
)
≠
0
COV(x_1,\mu) \neq 0
COV(x1,μ)=0
y
=
β
0
+
β
1
x
1
+
μ
y = \beta_0+\beta_1x_1+\mu
y=β0+β1x1+μ
x
1
x_1
x1变化时,随机扰动项也会变化,导致估计值
β
1
^
\hat{\beta_1}
β1^偏离真实值
Δ
y
Δ
x
+
Δ
μ
=
β
1
\frac {\Delta y} {\Delta x+\Delta \mu}=\beta_1
Δx+ΔμΔy=β1
2.什么是工具变量
变量 Z Z Z成为自变量 X X X的有效工具变量需满足2个条件:
- 相关性:工具变量与内生变量相关 C O V ( X , Z ) ≠ 0 COV(X,Z) \neq 0 COV(X,Z)=0
- 外生性:工具变量外生 C O V ( Z , μ ) = 0 COV(Z,\mu) = 0 COV(Z,μ)=0
3.为什么工具变量能解决内生性问题
一阶段回归: X 1 = β 10 + β 1 Z 1 + μ 1 (1) X_1 = \beta_{10}+\beta_1Z_1+\mu_1 \tag{1} X1=β10+β1Z1+μ1(1)
代入Y与X关系式: Y 1 = β 20 + β 2 X 1 + μ 2 (2) Y_1 = \beta_{20}+\beta_2X_1+\mu_2 \tag{2} Y1=β20+β2X1+μ2(2)
得到简约式回归:
Y
1
=
(
β
20
+
β
2
β
10
)
+
β
1
β
2
Z
1
+
(
β
2
μ
1
+
μ
2
)
(3)
Y_1 = (\beta_{20}+\beta_2\beta_{10})+\beta_1\beta_2Z_1+(\beta_2\mu_1+\mu_2) \tag{3}
Y1=(β20+β2β10)+β1β2Z1+(β2μ1+μ2)(3)
虽然 C O V ( X 1 , μ 2 ) ≠ 0 COV(X_1,\mu_2) \neq 0 COV(X1,μ2)=0,但是由一阶段回归可以得出: C O V ( Z 1 , μ 1 ) = 0 COV(Z_1,\mu_1) = 0 COV(Z1,μ1)=0,由工具变量的定义得出: C O V ( Z 1 , μ 2 ) = 0 COV(Z_1,\mu_2) = 0 COV(Z1,μ2)=0,因此公式3中 Z 1 Z_1 Z1与随机扰动项 β 2 μ 1 + μ 2 \beta_2\mu_1+\mu_2 β2μ1+μ2不相关,满足线性回归基本假设。
由公式1得出 β 1 {\beta_1} β1,公式3得出 β 1 β 2 {\beta_1}{\beta_2} β1β2,最终得到无偏估计量 β ^ 2 {\hat \beta_2} β^2
在只有一个工具变量和一个内生变量时,以上简约式的结果等价于最小二乘法:
一阶段回归:
X
1
=
β
10
+
β
1
Z
1
+
μ
1
(1)
X_1 = \beta_{10}+\beta_1Z_1+\mu_1 \tag{1}
X1=β10+β1Z1+μ1(1)
二阶段回归,
X
1
X_1
X1与
μ
2
\mu_2
μ2相关,与
β
2
μ
1
\beta_2\mu_1
β2μ1不相关,
X
^
1
\hat X_1
X^1与
μ
2
\mu_2
μ2、
β
2
μ
1
\beta_2\mu_1
β2μ1均不相关:
Y
1
=
β
20
+
β
2
X
^
1
+
μ
2
=
β
20
+
β
2
X
1
+
(
μ
2
−
β
2
μ
1
)
(2)
Y_1 = \beta_{20}+\beta_2 \hat X_1+\mu_2 = \beta_{20}+\beta_2 X_1+(\mu_2 - \beta_2\mu_1) \tag{2}
Y1=β20+β2X^1+μ2=β20+β2X1+(μ2−β2μ1)(2)
Y与X关系式:
Y
1
=
β
20
+
β
2
X
1
+
μ
2
=
β
20
+
β
2
X
^
1
+
(
μ
2
+
β
2
(
X
1
−
X
^
1
)
)
(2)
Y_1 = \beta_{20}+\beta_2X_1+\mu_2 = \beta_{20}+\beta_2 \hat X_1+(\mu_2+\beta_2(X_1-\hat X_1)) \tag{2}
Y1=β20+β2X1+μ2=β20+β2X^1+(μ2+β2(X1−X^1))(2)
由于
X
^
1
\hat X_1
X^1与残差
X
1
−
X
^
1
X_1-\hat X_1
X1−X^1不相关,且
C
O
V
(
X
^
1
,
μ
2
)
=
C
O
V
(
β
10
+
β
1
Z
1
)
=
C
O
V
(
β
10
,
μ
2
)
+
C
O
V
(
β
1
Z
1
,
μ
2
)
=
0
COV(\hat X_1,\mu_2)=COV(\beta_{10}+\beta_1Z_1)=COV(\beta_{10},\mu_2)+COV(\beta_1Z_1,\mu_2)=0
COV(X^1,μ2)=COV(β10+β1Z1)=COV(β10,μ2)+COV(β1Z1,μ2)=0,因此在只有一个工具变量和一个内生变量时,简约式的结果等价于最小二乘法,最终均能得到无偏估计量
β
^
2
{\hat \beta_2}
β^2
如果为内生变量找到多个工具变量:
一阶段回归:
X
1
=
π
10
+
π
1
Z
1
+
+
π
2
Z
2
+
ω
1
X_1 = \pi_{10}+\pi_1Z_1++\pi_2Z_2+\omega_1
X1=π10+π1Z1++π2Z2+ω1
根据最小二乘法的原理,
X
^
1
\hat X_1
X^1是
Z
1
Z_1
Z1与
Z
2
Z_2
Z2中信息的最优线性组合,再将
X
^
1
\hat X_1
X^1代入2式,得到无偏估计量
β
^
2
{\hat \beta_2}
β^2
需要特别说明的是两阶段回归的标准误差
μ
2
=
Y
1
−
X
^
1
β
^
2
\mu_2 = Y_1-\hat X_1 \hat \beta_2
μ2=Y1−X^1β^2是错误的,正确的标准误差是
μ
2
=
Y
1
−
X
1
β
^
2
\mu_2 = Y_1-X_1 \hat \beta_2
μ2=Y1−X1β^2
4.工具变量通俗解释
工具变量相当于一个过滤器,把 X 1 X_1 X1分成两部分,第一部分和 Z 1 Z_1 Z1有关(即 X ^ 1 \hat X_1 X^1),第二部分和 Z 1 Z_1 Z1无关(即 μ 1 \mu_1 μ1)。由于 Z 1 Z_1 Z1与 μ 2 \mu_2 μ2无关,第一部分自然也和 μ 2 \mu_2 μ2无关,第二部分是要过滤掉的渣子: X 1 X_1 X1中包含的和 μ 2 \mu_2 μ2有关的东西
5.内生性的检验:Hausman test
Hausman test的原假设是:所有解释变量均为外生变量,然后比较IV估计值和OLS估计值和的差异,如果很大,说明存在内生性问题,如果比较小,则不存在。
参考
工具变量原理
工具变量原理
工具变量例子
工具变量例子
工具变量通俗解释
deepIV(两阶段最小二乘推广到非线性模型)