DID
直觉
自然实验
DID是一种准实验技术,用于理解经济环境或政府政策在某一时点变化的影响。为了使用DID,我们需要观察干预前后处理组与控制组之间不同的结果。
Cross-Sectional Difference After Treatment
假设我们只拥有2002年横截面数据,数据告诉我们关于公司的注册地点及其创新活动。
基准回归
y
i
=
β
0
+
β
1
I
(
t
r
e
a
t
i
)
+
ε
i
y_i=\beta_0+\beta_1I(treat_i)+\varepsilon_i
yi=β0+β1I(treati)+εi
y
i
y_i
yi 是2002年创新活动的度量,且如果公司在A州注册,则
I
(
t
r
e
a
t
i
)
=
1
I(treat_i)=1
I(treati)=1。
假设: E ( ε i ∣ I ( t r e a t i ) ) = 0 E(\varepsilon_i|I(treat_i))=0 E(εi∣I(treati))=0
我们有: E ( y i ∣ I ( t r e a t i ) = 0 ) = β 0 , E ( y i ∣ I ( t r e a t i ) = 1 ) = β 0 + β 1 E(y_i|I(treat_i)=0)=\beta_0\ \ ,E(y_i|I(treat_i)=1)=\beta_0+\beta_1 E(yi∣I(treati)=0)=β0 ,E(yi∣I(treati)=1)=β0+β1
→ E ( y i ∣ I ( t r e a t i ) = 1 ) − E ( y i ∣ I ( t r e a t i ) = 0 ) = β 1 \rightarrow E(y_i|I(treat_i)=1)-E(y_i|I(treat_i)=0)=\beta_1 →E(yi∣I(treati)=1)−E(yi∣I(treati)=0)=β1
但是上述对于 E ( ε i ∣ I ( t r e a t i ) ) = 0 E(\varepsilon_i|I(treat_i))=0 E(εi∣I(treati))=0 的假设存在严重的问题。
如果A州的公司本身更具有创新性,假设就会被违反,因为有些因素与待遇有关。即使法律从未通过,我们也会期望A州的公司比其他公司有更多的创新活动。实际上这就是一个遗漏变量误差,真正的模型关系是:
y
i
=
β
0
+
β
1
I
(
t
r
e
a
t
i
)
+
α
Q
i
+
ε
i
y_i=\beta_0+\beta_1I(treat_i)+\alpha Q_i+\varepsilon_i
yi=β0+β1I(treati)+αQi+εi
但我们估计的是:
y
i
=
β
0
+
β
1
I
(
t
r
e
a
t
i
)
+
ε
i
β
1
~
=
C
o
v
(
I
(
t
r
e
a
t
)
,
y
)
/
V
a
r
(
I
(
t
r
e
a
t
)
)
=
β
1
+
β
2
C
o
v
(
I
(
t
r
e
a
t
)
,
y
)
/
V
a
r
(
I
(
t
r
e
a
t
)
)
=
β
1
+
β
2
γ
y_i=\beta_0+\beta_1I(treat_i)+\varepsilon_i\\\tilde{\beta_1}=Cov(I(treat),y)/Var(I(treat))=\beta_1+\beta_2Cov(I(treat),y)/Var(I(treat))=\beta_1+\beta_2\gamma
yi=β0+β1I(treati)+εiβ1~=Cov(I(treat),y)/Var(I(treat))=β1+β2Cov(I(treat),y)/Var(I(treat))=β1+β2γ
γ
\gamma
γ 是回归中
Q
Q
Q 的斜率系数,
γ
>
0
,
β
2
>
0
\gamma>0,\beta_2>0
γ>0,β2>0,OLS估计是有偏的。
横截面差异的问题是,两组之间存在许多未测量的差异,将混淆这两个群体之间的任何比较,这是对内部有效性的最大威胁。
Time-Series Difference Within Treatment Group
将2001年在A州注册的公司的平均创新与2002年的公司进行比较,并避免了异质性的公司关注,回归如下:
y
i
t
=
β
0
+
β
1
I
(
P
o
s
t
i
t
)
+
ε
i
t
y_{it}=\beta_0+\beta_1I(Post_{it})+\varepsilon_{it}
yit=β0+β1I(Postit)+εit
如果
y
e
a
r
=
2002
,
I
(
P
o
s
t
)
=
1
year=2002,I(Post)=1
year=2002,I(Post)=1。如果
y
e
a
r
=
2001
,
I
(
P
o
s
t
)
=
0
year=2001,I(Post)=0
year=2001,I(Post)=0。
假设: E ( ε i t ∣ I ( P o s t i t ) ) = 0 E(\varepsilon_{it}|I(Post_{it}))=0 E(εit∣I(Postit))=0
我们有: E ( y i t ∣ I ( P o s t i t ) = 0 ) = β 0 , E ( y i t ∣ I ( P o s t i t ) = 1 ) = β 0 + β 1 E(y_{it}|I(Post_{it})=0)=\beta_0,E(y_{it}|I(Post_{it})=1)=\beta_0+\beta_1 E(yit∣I(Postit)=0)=β0,E(yit∣I(Postit)=1)=β0+β1
→ E ( y i t ∣ I ( P o s t i t ) = 1 ) − E ( y i t ∣ I ( P o s t i t ) = 0 ) = β 1 \rightarrow E(y_{it}|I(Post_{it})=1)-E(y_{it}|I(Post_{it})=0)=\beta_1 →E(yit∣I(Postit)=1)−E(yit∣I(Postit)=0)=β1
问题在于:
- 可能还有其他一些影响创新活动的因素,比如某种技术的巨大进步
- 这只是另一种形式的遗漏变量误差。我们可以控制一些变量,但很难完美地测量所有变量
DID估计量
y
i
t
=
β
0
+
β
1
I
(
t
r
e
a
t
i
t
)
+
β
2
I
(
p
o
s
t
i
t
)
+
β
3
I
(
t
r
e
a
t
i
t
)
×
I
(
p
o
s
t
i
t
)
+
ε
i
t
y_{it}=\beta_0+\beta_1I(treat_{it})+\beta_2I(post_{it})+\beta_3I(treat_{it})\times I(post_{it})+\varepsilon_{it}
yit=β0+β1I(treatit)+β2I(postit)+β3I(treatit)×I(postit)+εit
DID估计量通过消除两组之间的任何永久差异和影响两组的任何共同趋势来避免这两种威胁(永久差异和共同趋势)。
回到例子,我们想要的是处理对ATT的平均效果:
A T T = E [ Y 1 ( 2 ) − Y 0 ( 2 ) ∣ A = 1 ] ATT=E[Y^1(2)-Y^0(2)|A=1] ATT=E[Y1(2)−Y0(2)∣A=1]
假设:
- 一致性: Y ( t ) = ( 1 − A ) ∗ Y 0 ( t ) + A ∗ Y 1 ( t ) Y(t)=(1-A)*Y^0(t)+A*Y^1(t) Y(t)=(1−A)∗Y0(t)+A∗Y1(t)
- 时间趋势: Y ( t ) = Y 0 ( t ) = Y 1 ( t ) , f o r t ≤ T 0 , T 0 是 政 策 干 预 的 时 间 Y(t)=Y^0(t)=Y^1(t),for \ t\leq T_0,T_0是政策干预的时间 Y(t)=Y0(t)=Y1(t),for t≤T0,T0是政策干预的时间
- 反事实检验(平行趋势): E [ Y 0 ( 2 ) − Y 0 ( 1 ) ∣ A = 1 ] = E [ Y 0 ( 2 ) − Y 0 ( 1 ) ∣ A = 0 ] E[Y^0(2)-Y^0(1)|A=1]=E[Y^0(2)-Y^0(1)|A=0] E[Y0(2)−Y0(1)∣A=1]=E[Y0(2)−Y0(1)∣A=0]
- 正假设: 0 < P ( A = 1 ∣ X ) < 1 f o r a l l X 0<P(A=1|X)<1\ for\ all\ X 0<P(A=1∣X)<1 for all X
A T T = E [ Y 1 ( 2 ) − Y 0 ( 2 ) ∣ A = 1 ] = E [ Y 1 ( 2 ) ∣ A = 1 ] − E [ Y 0 ( 2 ) ∣ A = 1 ] = E [ Y 1 ( 2 ) ∣ A = 1 ] − ( E [ Y 0 ( 2 ) − Y 0 ( 1 ) ∣ A = 0 ] + E [ Y 0 ( 1 ) ∣ A = 1 ] ) = { E [ Y ( 2 ) ∣ A = 1 ] − E [ Y ( 1 ) ∣ A = 1 ] } − { E [ Y ( 2 ) ∣ A = 0 ] − E [ Y ( 1 ) ∣ A = 0 ] } ATT=E[Y^1(2)-Y^0(2)|A=1]=E[Y^1(2)|A=1]-E[Y^0(2)|A=1]=E[Y^1(2)|A=1]-(E[Y^0(2)-Y^0(1)|A=0]+E[Y^0(1)|A=1])=\{E[Y(2)|A=1]-E[Y(1)|A=1]\}-\{E[Y(2)|A=0]-E[Y(1)|A=0]\} ATT=E[Y1(2)−Y0(2)∣A=1]=E[Y1(2)∣A=1]−E[Y0(2)∣A=1]=E[Y1(2)∣A=1]−(E[Y0(2)−Y0(1)∣A=0]+E[Y0(1)∣A=1])={E[Y(2)∣A=1]−E[Y(1)∣A=1]}−{E[Y(2)∣A=0]−E[Y(1)∣A=0]}