**注记:**山东大学陈强教授《高级计量经济学及Stata应用》(第二版)第18章学习笔记!
双重差分法
在做随机实验或自然实验时,实验的效果往往需要一段时间才能显现出来,而我们关心的恰恰是被解释变量试验前后的变化。为此,考虑两期面板数据:
(注:面板数据是一个m*n的数据矩阵,记录的是n个时间节点上m个对象的某一数据指标
)
y
i
t
+
α
+
γ
D
t
+
β
x
i
t
+
u
i
+
ε
i
t
y_{it}+\alpha+\gamma D_{t}+\beta x_{it}+u_{i}+\varepsilon_{it}
yit+α+γDt+βxit+ui+εit
(
i
=
1
,
.
.
.
,
n
;
t
=
1
,
2
)
(i=1,...,n;t=1,2)
(i=1,...,n;t=1,2)
其中
D
t
D_{t}
Dt为试验期虚拟变量,
u
i
u_{i}
ui为不可观测的个体特征,
x
i
t
x_{it}
xit为政策虚拟变量(policy dummy)。
前戏做足,重点到了,因此,当t=1时(第一期),实验组与控制组并没有受到任何不同对待,所以政策虚拟变量
x
i
t
x_{it}
xit都等于0。当t=2时(第二期),实验组
x
i
t
=
1
x_{it}=1
xit=1,而控制组
x
i
t
x_{it}
xit依然等于0。如果该实验未能完全地随机化(eg:观测数据),则
x
i
t
x_{it}
xit可能与被遗漏的个体特征
u
i
u_{i}
ui相关,从而导致OLS(Ordinary Least Square)估计不一致。由于是面板数据,可以对上述方程进行一阶差分,目的在于消除
u
i
u_{i}
ui,
Δ
y
i
=
γ
+
β
x
i
2
+
Δ
ε
i
\Delta y_{i}=\gamma + \beta x_{i2}+\Delta \varepsilon_{i}
Δyi=γ+βxi2+Δεi
用OLS估计上式,即可得到一致估计,
β
^
O
L
S
=
Δ
y
ˉ
t
r
e
a
t
−
Δ
y
ˉ
c
o
n
t
r
o
l
=
(
y
ˉ
t
r
e
a
t
,
2
−
y
ˉ
t
r
e
a
t
,
1
)
−
(
y
ˉ
c
o
n
t
r
o
l
,
2
−
y
ˉ
c
o
n
t
r
o
l
,
1
)
\hat{\beta}_{OLS}=\Delta \bar{y}_{treat}-\Delta \bar{y}_{control}=(\bar{y}_{treat,2}-\bar{y}_{treat,1})-(\bar{y}_{control,2}-\bar{y}_{control,1})
β^OLS=Δyˉtreat−Δyˉcontrol=(yˉtreat,2−yˉtreat,1)−(yˉcontrol,2−yˉcontrol,1)
因此,这个估计法称为“双重差分估计量”(Difference in Difference estimator, DD),记为
β
^
D
D
\hat{\beta}_{DD}
β^DD,即实验组的平均变化与控制组的平均变化之差。
三重差分法
双重差分法的隐含假设是,即使没有政策变化,控制组与实验组的是件趣事也一样。然而如果控制组与实验组的是件趣事不同,便无法得到对试验效应的一致估计,此时,需要进一步改进双重差分估计量。
(Difference in Difference in Difference estimator, DDD)
观测数据的处理效应
在许多情况下,并没有随机实验或自然实验的数据,而只有观测数据,这是非常糟糕的。通常会存在self selection(自我选择),无法得到一直的估计。这需要学习断点回归设计(Regression Discontinuity Design,RDD)。