文章目录
工具变量法
内生性
在线性回归:
y
i
=
x
i
′
β
+
u
i
y_i=x_i'\beta+u_i
yi=xi′β+ui
中,如果
E
(
x
i
u
i
)
≠
0
E(x_iu_i)\neq0
E(xiui)=0 ,那么便存在内生性。
内生性产生的原因:同时的因果关系或联立方程(Simultaneous causality)、缺失变量(Omitted variables)、变量测量误差(Errors in variables)等等。
Simultaneous causality
案例:供求问题
定义
p
i
=
l
n
P
i
,
q
i
=
l
n
Q
i
p_i=lnP_i,q_i=lnQ_i
pi=lnPi,qi=lnQi,需求方程为:
q
i
=
γ
0
+
γ
1
p
i
+
u
i
q_i=\gamma_0+\gamma_1p_i+u_i
qi=γ0+γ1pi+ui
这里
u
i
u_i
ui 代表价格以外的影响需求的因素,比如收入和消费者喜好。供给方程为:
q
i
=
δ
0
+
δ
1
p
i
+
v
i
q_i=\delta_0+\delta_1p_i+v_i
qi=δ0+δ1pi+vi
这里
v
i
v_i
vi 代表其他影响供给的因素。解上述联立方程,得到:
p
i
=
δ
0
−
γ
0
γ
1
−
δ
1
+
v
i
−
u
i
γ
1
−
δ
1
q
i
=
γ
1
δ
0
−
γ
0
δ
1
γ
1
−
δ
1
+
γ
1
v
i
−
δ
1
u
i
γ
1
−
δ
1
p_i=\frac{\delta_0-\gamma_0}{\gamma_1-\delta_1}+\frac{v_i-u_i}{\gamma_1-\delta_1}\\q_i=\frac{\gamma_1\delta_0-\gamma_0\delta_1}{\gamma_1-\delta_1}+\frac{\gamma_1v_i-\delta_1u_i}{\gamma_1-\delta_1}
pi=γ1−δ1δ0−γ0+γ1−δ1vi−uiqi=γ1−δ1γ1δ0−γ0δ1+γ1−δ1γ1vi−δ1ui
假设
C
o
v
(
u
i
.
v
i
)
=
0
Cov(u_i.v_i)=0
Cov(ui.vi)=0,我们有:
C
o
v
(
p
i
,
u
i
)
=
−
V
a
r
(
u
i
)
γ
1
−
δ
1
,
C
o
v
(
p
i
,
v
i
)
=
V
a
r
(
v
i
)
γ
1
−
δ
1
Cov(p_i,u_i)=-\frac{Var(u_i)}{\gamma_1-\delta_1},Cov(p_i,v_i)=\frac{Var(v_i)}{\gamma_1-\delta_1}
Cov(pi,ui)=−γ1−δ1Var(ui),Cov(pi,vi)=γ1−δ1Var(vi)
解上述联立方程的斜率项:
C
o
v
(
p
i
,
q
i
)
V
a
r
(
p
i
)
=
γ
1
+
C
o
v
(
p
i
,
u
i
)
V
a
r
(
p
i
)
=
δ
1
+
C
o
v
(
p
i
,
v
i
)
V
a
r
(
p
i
)
(
γ
1
−
δ
1
)
2
V
a
r
(
p
i
)
=
V
a
r
(
v
i
)
+
V
a
r
(
u
i
)
C
o
v
(
p
i
,
q
i
)
V
a
r
(
p
i
)
=
γ
1
−
V
a
r
(
u
i
)
V
a
r
(
p
i
)
(
γ
1
−
δ
1
)
=
γ
1
−
V
a
r
(
u
i
)
(
γ
1
−
δ
1
)
V
a
r
(
v
i
)
+
V
a
r
(
u
i
)
=
γ
1
V
a
r
(
v
i
)
+
δ
1
V
a
r
(
u
i
)
V
a
r
(
v
i
)
+
V
a
r
(
u
i
)
∈
(
γ
1
,
δ
1
)
\frac{Cov(p_i,q_i)}{Var(p_i)}=\gamma_1+\frac{Cov(p_i,u_i)}{Var(p_i)}=\delta_1+\frac{Cov(p_i,v_i)}{Var(p_i)}\\(\gamma_1-\delta_1)^2Var(p_i)=Var(v_i)+Var(u_i)\\\frac{Cov(p_i,q_i)}{Var(p_i)}=\gamma_1-\frac{Var(u_i)}{Var(p_i)(\gamma_1-\delta_1)}=\gamma_1-\frac{Var(u_i)(\gamma_1-\delta_1)}{Var(v_i)+Var(u_i)}=\frac{\gamma_1Var(v_i)+\delta_1Var(u_i)}{Var(v_i)+Var(u_i)}\in(\gamma_1,\delta_1)
Var(pi)Cov(pi,qi)=γ1+Var(pi)Cov(pi,ui)=δ1+Var(pi)Cov(pi,vi)(γ1−δ1)2Var(pi)=Var(vi)+Var(ui)Var(pi)Cov(pi,qi)=γ1−Var(pi)(γ1−δ1)Var(ui)=γ1−Var(vi)+Var(ui)Var(ui)(γ1−δ1)=Var(vi)+Var(ui)γ1Var(vi)+δ1Var(ui)∈(γ1,δ1)
我们不能得到真正的需求或供给弹性,而是它们的加权平均。这种偏差称为联立方程偏差(simultaneous equations bias)。
Omitted Variables
考虑一个简单的工资方程:
l
o
g
(
w
a
g
e
)
=
β
0
+
β
1
e
d
u
c
+
β
2
a
b
l
i
+
e
log(wage)=\beta_0+\beta_1educ+\beta_2abli+e
log(wage)=β0+β1educ+β2abli+e
能力
A
b
l
i
Abli
Abli 很难去度量,所以方程可能估计错误。如果仅仅忽略能力
A
b
l
i
Abli
Abli ,将其作为误差项的一部分:
l
o
g
(
w
a
g
e
)
=
β
0
+
β
1
e
d
u
c
+
u
log(wage)=\beta_0+\beta_1educ+u
log(wage)=β0+β1educ+u
很明显的,能力
A
b
l
i
Abli
Abli 和教育
E
d
u
c
Educ
Educ 是相关的,所以OLS会因为内生性产生有偏不一致的估计。
Errors in Variables
在一个横截面数据集中,我们有:
C
i
+
=
k
Y
i
+
,
o
<
k
<
1
C_i^+=kY_i^+,\ \ \ \ o<k<1
Ci+=kYi+, o<k<1
在现实生活中,
C
i
=
C
i
+
+
c
i
,
Y
i
=
Y
i
+
+
y
i
C_i=C_i^++c_i,Y_i=Y_i^++y_i
Ci=Ci++ci,Yi=Yi++yi,这里
c
i
,
y
i
c_i,y_i
ci,yi 是测量误差,并且彼此独立,且与
C
i
+
,
Y
i
+
C_i^+,Y_i^+
Ci+,Yi+ 独立,所以有
C
i
=
k
Y
i
+
u
i
,
u
i
=
c
i
−
k
y
i
k
^
=
E
(
Y
i
C
i
)
E
(
Y
i
2
)
=
k
E
(
(
Y
i
+
)
2
)
E
(
(
Y
i
+
)
2
)
+
E
(
y
i
2
)
<
k
C_i=kY_i+u_i,u_i=c_i-ky_i\\\hat{k}=\frac{E(Y_iC_i)}{E(Y_i^2)}=\frac{kE((Y_i^+)^2)}{E((Y_i^+)^2)+E(y_i^2)}<k
Ci=kYi+ui,ui=ci−kyik^=E(Yi2)E(YiCi)=E((Yi+)2)+E(yi2)kE((Yi+)2)<k
其他原因
样本选择问题、函数形式的设定错误
工具变量法的基本想法
假设我们有
Y
i
=
α
+
τ
A
i
+
γ
U
i
+
η
i
Y_i=\alpha+\tau A_i+\gamma U_i+\eta_i
Yi=α+τAi+γUi+ηi
U
U
U 是不可观测的。误差项为
γ
U
i
+
η
i
\gamma U_i+\eta_i
γUi+ηi,
E
[
A
i
(
γ
U
i
+
η
i
)
]
=
0
E[A_i(\gamma U_i+\eta_i)]=0
E[Ai(γUi+ηi)]=0 不满足。
工具变量法的构造(Z
→
\rightarrow
→A)。First-stage relationship: Z affects A.
C
o
v
(
γ
U
i
+
η
i
,
Z
i
)
=
0
C
o
v
(
Y
i
,
Z
i
)
=
C
o
v
(
α
+
τ
A
i
+
γ
U
i
+
η
i
,
Z
i
)
=
τ
C
o
v
(
A
i
,
Z
i
)
τ
=
C
o
v
(
Y
i
,
Z
i
)
C
o
v
(
A
i
,
Z
i
)
=
C
o
v
(
Y
i
,
Z
i
)
/
V
a
r
(
Z
i
)
C
o
v
(
A
i
,
Z
i
)
/
V
a
r
(
Z
i
)
=
C
r
e
d
u
c
e
−
f
o
r
m
C
f
i
r
s
t
−
s
t
a
g
e
Cov(\gamma U_i+\eta_i,Z_i)=0\\Cov(Y_i,Z_i)=Cov(\alpha+\tau A_i+\gamma U_i+\eta_i,Z_i)=\tau Cov(A_i,Z_i)\\\tau=\frac{Cov(Y_i,Z_i)}{Cov(A_i,Z_i)}=\frac{Cov(Y_i,Z_i)/Var(Z_i)}{Cov(A_i,Z_i)/Var(Z_i)}=\frac{C_{reduce-form}}{C_{first-stage}}
Cov(γUi+ηi,Zi)=0Cov(Yi,Zi)=Cov(α+τAi+γUi+ηi,Zi)=τCov(Ai,Zi)τ=Cov(Ai,Zi)Cov(Yi,Zi)=Cov(Ai,Zi)/Var(Zi)Cov(Yi,Zi)/Var(Zi)=Cfirst−stageCreduce−form
若对于不同的i,有不同的
τ
\tau
τ,则引入一个二值变量
D
:
D
=
0
o
r
D
=
1
D:D=0\ or\ D=1
D:D=0 or D=1
Y
i
0
:
w
h
e
n
D
=
0
;
Y
i
1
:
w
h
e
n
D
=
1
Y_i^0:when\ D=0\ \ ;\ \ Y_i^1:when\ D=1
Yi0:when D=0 ; Yi1:when D=1
我们可以得到 causal effect/treatment effect for person i:
Y
i
1
−
Y
i
0
Y_i^1-Y_i^0
Yi1−Yi0。
average causal effect/average treatment effect: ATE= E [ Y 1 − Y 0 ] E[Y^1-Y^0] E[Y1−Y0]。
但是
Y
1
、
Y
0
Y^1、Y^0
Y1、Y0 无法同时观测到,故我们采用:
Y
=
D
∗
Y
1
+
(
1
−
D
)
∗
Y
0
,
D
是
随
机
的
E
(
Y
∣
D
=
1
)
=
E
(
Y
1
∣
D
=
1
)
=
E
(
Y
1
)
E
(
Y
∣
D
=
0
)
=
E
(
Y
0
∣
D
=
0
)
=
E
(
Y
0
)
E
(
Y
∣
D
=
1
)
−
E
(
Y
∣
D
=
0
)
=
E
(
Y
1
−
Y
0
)
=
A
T
E
Y=D*Y^1+(1-D)*Y^0,D是随机的\\E(Y|D=1)=E(Y^1|D=1)=E(Y^1)\\E(Y|D=0)=E(Y^0|D=0)=E(Y^0)\\E(Y|D=1)-E(Y|D=0)=E(Y^1-Y^0)=ATE
Y=D∗Y1+(1−D)∗Y0,D是随机的E(Y∣D=1)=E(Y1∣D=1)=E(Y1)E(Y∣D=0)=E(Y0∣D=0)=E(Y0)E(Y∣D=1)−E(Y∣D=0)=E(Y1−Y0)=ATE
但大多数情况,会有选择问题:
Y
1
Y^1
Y1 在D=1的人群中的分布与在所有人群中的分布不同:
Y
=
D
∗
Y
1
+
(
1
−
D
)
∗
Y
0
,
D
是
随
机
的
E
(
Y
∣
D
=
1
)
=
E
(
Y
1
∣
D
=
1
)
≠
E
(
Y
1
)
E
(
Y
∣
D
=
0
)
=
E
(
Y
0
∣
D
=
0
)
≠
E
(
Y
0
)
E
(
Y
∣
D
=
1
)
−
E
(
Y
∣
D
=
0
)
≠
E
(
Y
1
−
Y
0
)
=
A
T
E
Y=D*Y^1+(1-D)*Y^0,D是随机的\\E(Y|D=1)=E(Y^1|D=1)\neq E(Y^1)\\E(Y|D=0)=E(Y^0|D=0)\neq E(Y^0)\\E(Y|D=1)-E(Y|D=0)\neq E(Y^1-Y^0)=ATE
Y=D∗Y1+(1−D)∗Y0,D是随机的E(Y∣D=1)=E(Y1∣D=1)=E(Y1)E(Y∣D=0)=E(Y0∣D=0)=E(Y0)E(Y∣D=1)−E(Y∣D=0)=E(Y1−Y0)=ATE
为了解释工具变量在潜在结果框架中的作用,我们需要6个假设:
1、 Z ∈ 0 , 1 , D ∈ 0 , 1 Z\in{0,1},D\in{0,1} Z∈0,1,D∈0,1.
2、 Y = D ∗ Y 1 + ( 1 − D ) ∗ Y 0 Y=D*Y^1+(1-D)*Y^0 Y=D∗Y1+(1−D)∗Y0.
3、 D = Z ∗ D 1 + ( 1 − Z ) ∗ D 0 D=Z*D^1+(1-Z)*D^0 D=Z∗D1+(1−Z)∗D0.
4、No defiers. D 1 ≥ D 0 D^1\geq D^0 D1≥D0.
5、 Z ⊥ ( Y 0 , Y 1 , D 0 , D 1 ) Z\perp (Y^0,Y^1,D^0,D^1) Z⊥(Y0,Y1,D0,D1).
6、 C o v ( Z , D ) ≠ 0 Cov(Z,D)\neq0 Cov(Z,D)=0.
在上述假设下,IV估计量就等于local average treatment effect(LATE)
LATE theorem:
C
o
v
(
Z
,
Y
)
C
o
v
(
Z
,
D
)
=
E
(
Y
∣
Z
=
1
)
−
E
(
Y
∣
Z
=
0
)
E
(
D
∣
Z
=
1
)
−
E
(
D
∣
Z
=
0
)
=
E
(
Y
1
−
Y
0
∣
D
1
>
D
0
)
\frac{Cov(Z,Y)}{Cov(Z,D)}=\frac{E(Y|Z=1)-E(Y|Z=0)}{E(D|Z=1)-E(D|Z=0)}=E(Y^1-Y^0|D^1>D^0)
Cov(Z,D)Cov(Z,Y)=E(D∣Z=1)−E(D∣Z=0)E(Y∣Z=1)−E(Y∣Z=0)=E(Y1−Y0∣D1>D0)
第一部分证明:
C
o
v
(
Z
,
Y
)
=
E
(
Y
Z
)
−
E
(
Y
)
E
(
Z
)
=
E
(
Y
∣
Z
=
1
)
∗
E
(
Z
)
−
(
E
(
Y
∣
Z
=
1
)
∗
E
(
Z
)
+
E
(
Y
∣
Z
=
0
)
∗
E
(
1
−
Z
)
)
∗
E
(
Z
)
=
(
E
(
Y
∣
Z
=
1
)
−
E
(
Y
∣
Z
=
1
)
∗
E
(
Z
)
+
E
(
Y
∣
Z
=
0
)
E
(
1
−
Z
)
)
∗
E
(
Z
)
=
(
E
(
Y
∣
Z
=
1
)
−
E
(
Y
∣
Z
=
0
)
)
∗
E
(
1
−
Z
)
E
(
Z
)
同
样
的
,
C
o
v
(
Z
,
D
)
=
(
E
(
D
∣
Z
=
1
)
−
E
(
D
∣
Z
=
0
)
)
∗
E
(
1
−
Z
)
∗
E
(
Z
)
所
以
,
C
o
v
(
Z
,
Y
)
C
o
v
(
Z
,
D
)
=
E
(
Y
∣
Z
=
1
)
−
E
(
Y
∣
Z
=
0
)
E
(
D
∣
Z
=
1
)
−
E
(
D
∣
Z
=
0
)
Cov(Z,Y)=E(YZ)-E(Y)E(Z)=E(Y|Z=1)*E(Z)-(E(Y|Z=1)*E(Z)+E(Y|Z=0)*E(1-Z))*E(Z)\\=(E(Y|Z=1)-E(Y|Z=1)*E(Z)+E(Y|Z=0)E(1-Z))*E(Z)=(E(Y|Z=1)-E(Y|Z=0))*E(1-Z)E(Z)\\同样的,Cov(Z,D)=(E(D|Z=1)-E(D|Z=0))*E(1-Z)*E(Z)\\所以,\frac{Cov(Z,Y)}{Cov(Z,D)}=\frac{E(Y|Z=1)-E(Y|Z=0)}{E(D|Z=1)-E(D|Z=0)}
Cov(Z,Y)=E(YZ)−E(Y)E(Z)=E(Y∣Z=1)∗E(Z)−(E(Y∣Z=1)∗E(Z)+E(Y∣Z=0)∗E(1−Z))∗E(Z)=(E(Y∣Z=1)−E(Y∣Z=1)∗E(Z)+E(Y∣Z=0)E(1−Z))∗E(Z)=(E(Y∣Z=1)−E(Y∣Z=0))∗E(1−Z)E(Z)同样的,Cov(Z,D)=(E(D∣Z=1)−E(D∣Z=0))∗E(1−Z)∗E(Z)所以,Cov(Z,D)Cov(Z,Y)=E(D∣Z=1)−E(D∣Z=0)E(Y∣Z=1)−E(Y∣Z=0)
第二部分证明:
E
(
Y
∣
Z
=
1
)
=
E
(
Y
∣
Z
=
1
,
N
T
)
∗
P
(
N
T
∣
Z
=
1
)
+
E
(
Y
∣
Z
=
1
,
C
)
∗
P
(
C
∣
Z
=
1
)
+
E
(
Y
∣
Z
=
1
,
A
T
)
∗
P
(
A
T
∣
Z
=
1
)
=
E
(
Y
0
∣
N
T
)
∗
P
(
N
T
)
+
E
(
Y
1
∣
C
)
∗
P
(
C
)
+
E
(
Y
1
∣
A
T
)
∗
P
(
A
T
)
同
样
的
,
E
(
Y
∣
Z
=
0
)
=
E
(
Y
0
∣
N
T
)
∗
P
(
N
T
)
+
E
(
Y
0
∣
C
)
∗
P
(
C
)
+
E
(
Y
1
∣
A
T
)
∗
P
(
A
T
)
所
以
,
E
(
Y
∣
Z
=
1
)
−
E
(
Y
∣
Z
=
0
)
=
(
E
(
Y
1
∣
C
)
−
E
(
Y
0
∣
C
)
)
∗
P
(
C
)
E
(
D
∣
Z
=
1
)
−
E
(
D
∣
Z
=
0
)
=
E
(
D
1
)
−
E
(
D
0
)
=
P
(
C
)
+
P
(
A
T
)
−
P
(
A
T
)
=
P
(
C
)
所
以
,
E
(
Y
∣
Z
=
1
)
−
E
(
Y
∣
Z
=
0
)
E
(
D
∣
Z
=
1
)
−
E
(
D
∣
Z
=
0
)
=
(
E
(
Y
1
∣
C
)
−
E
(
Y
0
∣
C
)
)
=
E
(
Y
1
−
Y
0
∣
D
1
>
D
0
)
E(Y|Z=1)=E(Y|Z=1,NT)*P(NT|Z=1)+E(Y|Z=1,C)*P(C|Z=1)+E(Y|Z=1,AT)*P(AT|Z=1)\\=E(Y^0|NT)*P(NT)+E(Y^1|C)*P(C)+E(Y^1|AT)*P(AT)\\同样的,E(Y|Z=0)=E(Y^0|NT)*P(NT)+E(Y^0|C)*P(C)+E(Y^1|AT)*P(AT)\\所以,E(Y|Z=1)-E(Y|Z=0)=(E(Y^1|C)-E(Y^0|C))*P(C)\\E(D|Z=1)-E(D|Z=0)=E(D^1)-E(D^0)=P(C)+P(AT)-P(AT)=P(C)\\所以,\frac{E(Y|Z=1)-E(Y|Z=0)}{E(D|Z=1)-E(D|Z=0)}=(E(Y^1|C)-E(Y^0|C))=E(Y^1-Y^0|D^1>D^0)
E(Y∣Z=1)=E(Y∣Z=1,NT)∗P(NT∣Z=1)+E(Y∣Z=1,C)∗P(C∣Z=1)+E(Y∣Z=1,AT)∗P(AT∣Z=1)=E(Y0∣NT)∗P(NT)+E(Y1∣C)∗P(C)+E(Y1∣AT)∗P(AT)同样的,E(Y∣Z=0)=E(Y0∣NT)∗P(NT)+E(Y0∣C)∗P(C)+E(Y1∣AT)∗P(AT)所以,E(Y∣Z=1)−E(Y∣Z=0)=(E(Y1∣C)−E(Y0∣C))∗P(C)E(D∣Z=1)−E(D∣Z=0)=E(D1)−E(D0)=P(C)+P(AT)−P(AT)=P(C)所以,E(D∣Z=1)−E(D∣Z=0)E(Y∣Z=1)−E(Y∣Z=0)=(E(Y1∣C)−E(Y0∣C))=E(Y1−Y0∣D1>D0)
多个工具变量
如果我们有两个工具变量,就会有两个不同的LATEs, ρ 1 f o r Z 1 a n d ρ 2 f o r Z 2 \rho_1\ for\ Z_1\ and\ \rho_2\ for\ Z_2 ρ1 for Z1 and ρ2 for Z2。我们可以使用2SLS来估计这些工具变量的总体效果。
在Angrist and Pischke的研究中,他们展示了用两个工具变量的两个LATEs的加权和来定义2SLS的估计量:
ρ
2
S
L
S
=
ψ
ρ
1
+
(
1
−
ψ
)
ρ
2
ψ
=
π
1
C
o
v
(
A
,
Z
1
)
π
1
C
o
v
(
A
,
Z
1
)
+
π
2
C
o
v
(
A
,
Z
2
)
\rho_{2SLS}=\psi\rho_1+(1-\psi)\rho_2\\\psi=\frac{\pi_1Cov(A,Z_1)}{\pi_1Cov(A,Z_1)+\pi_2Cov(A,Z_2)}
ρ2SLS=ψρ1+(1−ψ)ρ2ψ=π1Cov(A,Z1)+π2Cov(A,Z2)π1Cov(A,Z1)
这里的
π
1
,
π
2
\pi_1,\pi_2
π1,π2 是IV第一阶段(first stage)Z的系数。
因此,2SLS估计是每个工具因果效应的加权平均值,其中的权重与每个工具的第一阶段效应的预测强度有关。