政策效应,基于反事实框架(一)
Edited by Linhao Cui;
根据陈强高级计量经济学及stata应用等书籍自己整理得到;仅供学习交流使用。
从一个基准的理想政策评价模型出发:
Y
i
=
β
⋅
P
o
l
i
c
y
i
+
μ
i
Y_i = \beta · Policy_i + \mu_i
Yi=β⋅Policyi+μi
假设内生性问题已经解决,这里能否说 $ \beta_i $ 的一致估计量就是处理效应呢?
显然不行,因为该政策很可能存在自选择的问题,也就是说该政策的施加并非是随机的,而是由该个体依据自身属性条件决定的,具体可分为由可观测的因素决定和不可观测的因素决定,也就是说是否施加政策和结果变量并不独立,由此产生的偏差被称为样本选择偏差。存在样本选择偏差的条件下,政策效应或者因果效应的估计是存在明显的高估或者低估倾向的,这种高估和低估的倾向并不是由于技术因素带来的,而是现实原因的心理倾向。
因此,基准模型的估计结果自然是有偏的,为了更清晰的表明处理效应,提出以下概念:
记个体 i 未来的状态为 y i y_i yi :
y
i
=
{
y
1
i
D
i
=
1
y
0
i
D
i
=
0
y_i = \begin{cases} y_{1i} & D_i = 1 \\ y_{0i} & D_i = 0 \end{cases}
yi={y1iy0iDi=1Di=0
其中D为政策实施的哑变量;
y
1
i
y_{1i}
y1i 代表个体 i 实施政策后的结果,
y
o
i
y_{oi}
yoi 为个体 i 不接受处理的结果;
这个式子代表个体 i 在未来的两种状态,这两种状态只能观察到一种,这个框架即潜在事实。
任何个体,未来的状态均可表示为其潜在状态和观测状态的线性组合:
y
i
=
D
i
y
1
i
+
(
1
−
D
i
)
y
0
i
=
y
0
i
+
D
i
(
y
1
i
−
y
0
i
)
y_i = D_i y_{1i} + (1-D_i)y_{0i} = y_{0i} + D_i(y_{1i} - y_{0i})
yi=Diy1i+(1−Di)y0i=y0i+Di(y1i−y0i)
其中
y
1
i
−
y
0
i
y_{1i} - y_{0i}
y1i−y0i 即为个体处理效应或者称之为因果效应。
可以看出,个体的未来状态 y i y_i yi 由一个三维向量 ( y 1 i , y 0 i , D i ) (y_{1i},y_{0i},D_i ) (y1i,y0i,Di)决定。
平时我们研究的处理效应是个体处理效应的平均,称之为平均处理效应,具体可分为以下三种形式:
A
T
E
(
平
均
处
理
效
应
)
=
E
(
y
1
i
−
y
0
i
)
A
T
T
(
处
理
组
平
均
处
理
效
应
)
=
E
(
y
1
i
−
y
0
i
∣
D
i
=
1
)
A
T
N
(
对
照
组
平
均
处
理
效
应
)
=
E
(
y
1
i
−
y
0
i
∣
D
i
=
0
)
ATE(平均处理效应) = E(y_{1i} - y_{0i}) \\ ATT(处理组平均处理效应) = E(y_{1i} - y_{0i} | D_i = 1) \\ ATN(对照组平均处理效应) = E(y_{1i} - y_{0i} | D_i = 0)
ATE(平均处理效应)=E(y1i−y0i)ATT(处理组平均处理效应)=E(y1i−y0i∣Di=1)ATN(对照组平均处理效应)=E(y1i−y0i∣Di=0)
值得注意的是,这三种处理效应都是基于反事实的估计,都无法直接观测得到,因此我们需要基于观测结果估计平均处理效应。
E
(
y
1
i
∣
D
i
=
1
)
−
E
(
y
0
i
∣
D
i
=
0
)
=
E
(
y
1
i
∣
D
i
=
1
)
−
E
(
y
0
i
∣
D
i
=
1
)
⏟
A
T
T
+
E
(
y
0
i
∣
D
i
=
1
)
−
E
(
y
0
i
∣
D
i
=
0
)
⏟
样
本
选
择
偏
误
(
1
)
E(y_{1i} | D_i =1 ) - E(y_{0i} | D_i = 0) =\underbrace{ E(y_{1i} | D_i =1) - E(y_{0i} | D_i = 1)}_{ATT} + \underbrace{E(y_{0i}|D_i=1) - E(y_{0i}|D_i = 0)}_{样本选择偏误} \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ (1)
E(y1i∣Di=1)−E(y0i∣Di=0)=ATT
E(y1i∣Di=1)−E(y0i∣Di=1)+样本选择偏误
E(y0i∣Di=1)−E(y0i∣Di=0) (1)
其中等式左边是可以由观测结果得到的。也就是基准模型可以估计的。
等式右边样本选择偏误是十分重要的一项,这一项代表了处理组和对照组的故有偏差,如果这一项足够大,甚至可能使得估计结果为负,对这一项的处理方式不同,也就衍生出了不同的政策效应估计模型:
显然我们的目标是使得样本选择偏误消失,消失的条件显然是政策变量和结果变量无关,此时:
E
(
y
0
i
∣
D
i
=
1
)
−
E
(
y
0
i
∣
D
i
=
0
)
=
E
(
y
0
i
)
−
E
(
y
0
i
)
=
0
(
2
)
E(y_{0i}|D_i=1) - E(y_{0i}|D_i = 0) = E(y_{0i}) - E(y_{0i}) = 0 \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ (2)
E(y0i∣Di=1)−E(y0i∣Di=0)=E(y0i)−E(y0i)=0 (2)
参数方法: 好的控制、DID 与 断点回归设计
施加好的控制变量方法
使用这一方法的前提条件是,样本自选择问题是依据可以观测的因素,此时我们只需要施加好的控制,就可以让(1)式成立,即:
E
(
y
i
∣
D
i
,
X
i
)
=
E
(
y
i
∣
X
i
)
⟹
E
(
y
0
i
∣
D
i
=
1
,
X
i
)
−
E
(
y
0
i
∣
D
i
=
0
,
X
i
)
=
E
(
y
0
i
∣
X
i
)
−
E
(
y
0
i
∣
X
i
)
=
0
E(y_i | D_i,X_i) = E(y_i|X_i) \\ \implies E(y_{0i}|D_i=1,X_i) - E(y_{0i}|D_i = 0,X_i) = E(y_{0i}|X_i) - E(y_{0i}|X_i) = 0
E(yi∣Di,Xi)=E(yi∣Xi)⟹E(y0i∣Di=1,Xi)−E(y0i∣Di=0,Xi)=E(y0i∣Xi)−E(y0i∣Xi)=0
样本选择偏误即可消失,因此如果自选择问题是依据可观测的变量而产生的,就可以采用以下回归模型:
Y
i
=
β
⋅
P
o
l
i
c
y
i
+
X
i
′
γ
+
μ
i
Y_i = \beta · Policy_i + X_i'\gamma + \mu_i
Yi=β⋅Policyi+Xi′γ+μi
代入(1)式,可以写为:
E
(
y
1
i
∣
D
i
=
1
,
X
i
)
−
E
(
y
0
i
∣
D
i
=
0
,
X
i
)
=
E
(
y
1
i
∣
D
i
=
1
,
X
i
)
−
E
(
y
0
i
∣
D
i
=
1
,
X
i
)
+
E
(
y
0
i
∣
D
i
=
1
,
X
i
)
−
E
(
y
0
i
∣
D
i
=
0
,
X
i
)
=
E
(
y
1
i
∣
D
i
=
1
,
X
i
)
−
E
(
y
0
i
∣
D
i
=
1
,
X
i
)
=
β
E(y_{1i} | D_i =1,X_i ) - E(y_{0i} | D_i = 0,X_i) \\ = E(y_{1i} | D_i =1,X_i) - E(y_{0i} | D_i = 1,X_i) + E(y_{0i}|D_i=1,X_i) - E(y_{0i}|D_i = 0,X_i) \\ = E(y_{1i} | D_i =1,X_i) - E(y_{0i} | D_i = 1,X_i) = \beta
E(y1i∣Di=1,Xi)−E(y0i∣Di=0,Xi)=E(y1i∣Di=1,Xi)−E(y0i∣Di=1,Xi)+E(y0i∣Di=1,Xi)−E(y0i∣Di=0,Xi)=E(y1i∣Di=1,Xi)−E(y0i∣Di=1,Xi)=β
此时
β
\beta
β 即为处理组平均处理效应。
DID方法
DID方法基于对选择偏差的这样一种处理:
既然样本选择偏误来自于个体固有的差异,那么就认为个体的差异在两期之间是固定不变的,用前一期的差异来估计样本选择偏误。
为了表述清楚DID的思想,引入时间符号
t
和
t
′
t和t'
t和t′ 分别表示第二期和第一期,分别写出两期的回归方程
y
i
t
=
β
0
+
β
1
⋅
D
i
t
+
μ
i
t
y
i
t
′
=
α
0
+
α
1
⋅
D
i
t
′
+
ξ
i
t
′
y_{it} = \beta_0 + \beta_1 · D_{it} + \mu_{it} \\ y_{it'} = \alpha_0 + \alpha_1 · D_{it'} + \xi_{it'}
yit=β0+β1⋅Dit+μityit′=α0+α1⋅Dit′+ξit′
β 1 ^ = E ( y i t ∣ D i = 1 ) − E ( y i t ∣ D i = 0 ) α 1 ^ = E ( y i t ′ ∣ D i = 1 ) − E ( y i t ′ ∣ D i = 0 ) \hat{\beta_1} = E(y_{it}| D_i =1) - E(y_{it}|D_i=0) \\ \hat{\alpha_1} = E(y_{it'}| D_i =1) - E(y_{it'}|D_i=0) β1^=E(yit∣Di=1)−E(yit∣Di=0)α1^=E(yit′∣Di=1)−E(yit′∣Di=0)
这两个估计量分别表示了两期的固有偏误。构造:
δ
=
β
^
−
α
^
=
A
T
T
^
=
(
E
(
y
i
t
∣
D
i
=
1
)
−
E
(
y
i
t
∣
D
i
=
0
)
)
−
(
E
(
y
i
t
′
∣
D
i
=
1
)
−
E
(
y
i
t
′
∣
D
i
=
0
)
)
=
(
E
(
y
i
t
∣
D
i
=
1
)
−
E
(
y
i
t
′
∣
D
i
=
1
)
)
−
(
E
(
y
i
t
∣
D
i
=
0
)
−
E
(
y
i
t
′
∣
D
i
=
0
)
)
\delta = \hat{\beta} - \hat{\alpha} \\= \hat{ATT} \\= (E(y_{it}| D_i =1) - E(y_{it}|D_i=0))- (E(y_{it'}| D_i =1) - E(y_{it'}|D_i=0)) \\ = (E(y_{it}| D_i =1) - E(y_{it'}| D_i =1)) - (E(y_{it}|D_i=0) - E(y_{it'}|D_i=0) )
δ=β^−α^=ATT^=(E(yit∣Di=1)−E(yit∣Di=0))−(E(yit′∣Di=1)−E(yit′∣Di=0))=(E(yit∣Di=1)−E(yit′∣Di=1))−(E(yit∣Di=0)−E(yit′∣Di=0))
δ
^
\hat{\delta}
δ^ 即为DID估计量。将DID中的两个式子合并,可得:
y
i
t
=
β
0
+
β
1
⋅
a
f
t
e
r
+
β
2
⋅
t
r
e
a
t
+
δ
⋅
a
f
t
e
r
⋅
t
r
e
a
t
+
⋅
⋅
⋅
⋅
⋅
y_{it} = \beta_0 + \beta_1 · after + \beta_2·treat + \delta·after·treat + ·····
yit=β0+β1⋅after+β2⋅treat+δ⋅after⋅treat+⋅⋅⋅⋅⋅
可以发现式子中
δ
^
\hat{\delta}
δ^ 即为所求。
很明显可以看出,DID方法的应用前提是平行趋势。
然而很多情况下,平行趋势假设并不能得到满足,也就是说,处理组和对照的时间趋势并不平行,举个例子:
假设针对河南(H)的65岁以上老人实施了某一项医疗政策,我们想了解该政策对老年人健康状况的改善,这时我们可以选择两个对照组,一是H省65以下的年轻人为对照组,二是邻近的山东省(S)的老年人作为对照组,但是这两种对照组本身存在的问题是,该省65岁以下年轻人的健康情况发展趋势本身就比65岁以上老人要好,时间趋势并不平行,二是邻近的S省老年人的健康发展趋势和H省也不平行,为此我们可以想到的办法是,以邻近的S省的情况估计这两种发展趋势的差异。以第一种情况为例:
我们对DID估计量进行改造,使其变为DDD估计量:
δ
^
=
[
(
E
(
y
i
H
t
∣
D
i
=
1
)
−
E
(
y
i
H
t
∣
D
i
=
0
)
)
−
(
E
(
y
i
H
t
′
∣
D
i
=
1
)
−
E
(
y
i
H
t
′
∣
D
i
=
0
)
)
]
−
[
(
E
(
y
i
S
t
∣
D
i
=
1
)
−
E
(
y
i
S
t
∣
D
i
=
0
)
)
−
(
E
(
y
i
S
t
′
∣
D
i
=
1
)
−
E
(
y
i
S
t
′
∣
D
i
=
0
)
)
]
\hat{\delta} = [(E(y_{iHt}| D_i =1) - E(y_{iHt}|D_i=0))- (E(y_{iHt'}| D_i =1) - E(y_{iHt'}|D_i=0))] \\ -[(E(y_{iSt}| D_i =1) - E(y_{iSt}|D_i=0))- (E(y_{iSt'}| D_i =1) - E(y_{iSt'}|D_i=0))]
δ^=[(E(yiHt∣Di=1)−E(yiHt∣Di=0))−(E(yiHt′∣Di=1)−E(yiHt′∣Di=0))]−[(E(yiSt∣Di=1)−E(yiSt∣Di=0))−(E(yiSt′∣Di=1)−E(yiSt′∣Di=0))]
更清晰的,我们用简化的表达式:
δ
^
=
[
(
y
H
T
2
−
y
H
T
1
)
−
(
y
H
C
2
−
y
H
C
1
)
]
−
[
(
y
H
T
2
−
y
H
T
1
)
−
(
y
H
C
2
−
y
H
C
1
)
]
\hat{\delta} = [(y_{HT2} - y_{HT1}) - (y_{HC2}-y_{HC1})] - [(y_{HT2} - y_{HT1}) - (y_{HC2}-y_{HC1})]
δ^=[(yHT2−yHT1)−(yHC2−yHC1)]−[(yHT2−yHT1)−(yHC2−yHC1)]
为了清楚表示,通过下面这张图来展示:
为了简化起见,在第一种情况下,也就是以H省年轻人为对照组的前提下,假设S省和H省的老年人和年轻人分别拥有相同的健康发展趋势。此时可以从图中看出,DDD估计量为 ( A − B ) − ( C − B ) = A − C (A-B)-(C-B)=A - C (A−B)−(C−B)=A−C
很明显可以看出A-C即为所求,通过三重差分的方式,将不平行的时间趋势消除掉了,DDD估计量的估计方程可以写作:
y
i
t
=
β
0
+
β
1
H
+
β
2
T
+
β
3
A
+
δ
H
⋅
A
⋅
T
+
ξ
i
t
y_{it} = \beta_0 + \beta_1 H + \beta_2 T + \beta_3 A + \delta H·A·T + \xi_{it}
yit=β0+β1H+β2T+β3A+δH⋅A⋅T+ξit