政策效应,基于反事实框架

政策效应,基于反事实框架(一)

Edited by Linhao Cui;

根据陈强高级计量经济学及stata应用等书籍自己整理得到;仅供学习交流使用。

从一个基准的理想政策评价模型出发:
Y i = β ⋅ P o l i c y i + μ i Y_i = \beta · Policy_i + \mu_i Yi=βPolicyi+μi
假设内生性问题已经解决,这里能否说 $ \beta_i $ 的一致估计量就是处理效应呢?

显然不行,因为该政策很可能存在自选择的问题,也就是说该政策的施加并非是随机的,而是由该个体依据自身属性条件决定的,具体可分为由可观测的因素决定和不可观测的因素决定,也就是说是否施加政策和结果变量并不独立,由此产生的偏差被称为样本选择偏差。存在样本选择偏差的条件下,政策效应或者因果效应的估计是存在明显的高估或者低估倾向的,这种高估和低估的倾向并不是由于技术因素带来的,而是现实原因的心理倾向。

因此,基准模型的估计结果自然是有偏的,为了更清晰的表明处理效应,提出以下概念:

记个体 i 未来的状态为 y i y_i yi :

y i = { y 1 i D i = 1 y 0 i D i = 0 y_i = \begin{cases} y_{1i} & D_i = 1 \\ y_{0i} & D_i = 0 \end{cases} yi={y1iy0iDi=1Di=0
其中D为政策实施的哑变量; y 1 i y_{1i} y1i 代表个体 i 实施政策后的结果, y o i y_{oi} yoi 为个体 i 不接受处理的结果;

这个式子代表个体 i 在未来的两种状态,这两种状态只能观察到一种,这个框架即潜在事实。

任何个体,未来的状态均可表示为其潜在状态和观测状态的线性组合:
y i = D i y 1 i + ( 1 − D i ) y 0 i = y 0 i + D i ( y 1 i − y 0 i ) y_i = D_i y_{1i} + (1-D_i)y_{0i} = y_{0i} + D_i(y_{1i} - y_{0i}) yi=Diy1i+(1Di)y0i=y0i+Di(y1iy0i)
其中 y 1 i − y 0 i y_{1i} - y_{0i} y1iy0i 即为个体处理效应或者称之为因果效应。

可以看出,个体的未来状态 y i y_i yi 由一个三维向量 ( y 1 i , y 0 i , D i ) (y_{1i},y_{0i},D_i ) y1i,y0i,Di)决定。

平时我们研究的处理效应是个体处理效应的平均,称之为平均处理效应,具体可分为以下三种形式:
A T E ( 平 均 处 理 效 应 ) = E ( y 1 i − y 0 i ) A T T ( 处 理 组 平 均 处 理 效 应 ) = E ( y 1 i − y 0 i ∣ D i = 1 ) A T N ( 对 照 组 平 均 处 理 效 应 ) = E ( y 1 i − y 0 i ∣ D i = 0 ) ATE(平均处理效应) = E(y_{1i} - y_{0i}) \\ ATT(处理组平均处理效应) = E(y_{1i} - y_{0i} | D_i = 1) \\ ATN(对照组平均处理效应) = E(y_{1i} - y_{0i} | D_i = 0) ATE()=E(y1iy0i)ATT()=E(y1iy0iDi=1)ATN()=E(y1iy0iDi=0)
值得注意的是,这三种处理效应都是基于反事实的估计,都无法直接观测得到,因此我们需要基于观测结果估计平均处理效应。
E ( y 1 i ∣ D i = 1 ) − E ( y 0 i ∣ D i = 0 ) = E ( y 1 i ∣ D i = 1 ) − E ( y 0 i ∣ D i = 1 ) ⏟ A T T + E ( y 0 i ∣ D i = 1 ) − E ( y 0 i ∣ D i = 0 ) ⏟ 样 本 选 择 偏 误                      ( 1 ) E(y_{1i} | D_i =1 ) - E(y_{0i} | D_i = 0) =\underbrace{ E(y_{1i} | D_i =1) - E(y_{0i} | D_i = 1)}_{ATT} + \underbrace{E(y_{0i}|D_i=1) - E(y_{0i}|D_i = 0)}_{样本选择偏误} \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ (1) E(y1iDi=1)E(y0iDi=0)=ATT E(y1iDi=1)E(y0iDi=1)+ E(y0iDi=1)E(y0iDi=0)                    (1)
其中等式左边是可以由观测结果得到的。也就是基准模型可以估计的。

等式右边样本选择偏误是十分重要的一项,这一项代表了处理组和对照组的故有偏差,如果这一项足够大,甚至可能使得估计结果为负,对这一项的处理方式不同,也就衍生出了不同的政策效应估计模型:

显然我们的目标是使得样本选择偏误消失,消失的条件显然是政策变量和结果变量无关,此时:
E ( y 0 i ∣ D i = 1 ) − E ( y 0 i ∣ D i = 0 ) = E ( y 0 i ) − E ( y 0 i ) = 0                      ( 2 ) E(y_{0i}|D_i=1) - E(y_{0i}|D_i = 0) = E(y_{0i}) - E(y_{0i}) = 0 \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ (2) E(y0iDi=1)E(y0iDi=0)=E(y0i)E(y0i)=0                    (2)

参数方法: 好的控制、DID 与 断点回归设计

施加好的控制变量方法

使用这一方法的前提条件是,样本自选择问题是依据可以观测的因素,此时我们只需要施加好的控制,就可以让(1)式成立,即:
E ( y i ∣ D i , X i ) = E ( y i ∣ X i )    ⟹    E ( y 0 i ∣ D i = 1 , X i ) − E ( y 0 i ∣ D i = 0 , X i ) = E ( y 0 i ∣ X i ) − E ( y 0 i ∣ X i ) = 0 E(y_i | D_i,X_i) = E(y_i|X_i) \\ \implies E(y_{0i}|D_i=1,X_i) - E(y_{0i}|D_i = 0,X_i) = E(y_{0i}|X_i) - E(y_{0i}|X_i) = 0 E(yiDi,Xi)=E(yiXi)E(y0iDi=1,Xi)E(y0iDi=0,Xi)=E(y0iXi)E(y0iXi)=0
样本选择偏误即可消失,因此如果自选择问题是依据可观测的变量而产生的,就可以采用以下回归模型:
Y i = β ⋅ P o l i c y i + X i ′ γ + μ i Y_i = \beta · Policy_i + X_i'\gamma + \mu_i Yi=βPolicyi+Xiγ+μi
代入(1)式,可以写为:
E ( y 1 i ∣ D i = 1 , X i ) − E ( y 0 i ∣ D i = 0 , X i ) = E ( y 1 i ∣ D i = 1 , X i ) − E ( y 0 i ∣ D i = 1 , X i ) + E ( y 0 i ∣ D i = 1 , X i ) − E ( y 0 i ∣ D i = 0 , X i ) = E ( y 1 i ∣ D i = 1 , X i ) − E ( y 0 i ∣ D i = 1 , X i ) = β E(y_{1i} | D_i =1,X_i ) - E(y_{0i} | D_i = 0,X_i) \\ = E(y_{1i} | D_i =1,X_i) - E(y_{0i} | D_i = 1,X_i) + E(y_{0i}|D_i=1,X_i) - E(y_{0i}|D_i = 0,X_i) \\ = E(y_{1i} | D_i =1,X_i) - E(y_{0i} | D_i = 1,X_i) = \beta E(y1iDi=1,Xi)E(y0iDi=0,Xi)=E(y1iDi=1,Xi)E(y0iDi=1,Xi)+E(y0iDi=1,Xi)E(y0iDi=0,Xi)=E(y1iDi=1,Xi)E(y0iDi=1,Xi)=β
此时 β \beta β 即为处理组平均处理效应。

DID方法

DID方法基于对选择偏差的这样一种处理:

既然样本选择偏误来自于个体固有的差异,那么就认为个体的差异在两期之间是固定不变的,用前一期的差异来估计样本选择偏误。

为了表述清楚DID的思想,引入时间符号 t 和 t ′ t和t' tt 分别表示第二期和第一期,分别写出两期的回归方程
y i t = β 0 + β 1 ⋅ D i t + μ i t y i t ′ = α 0 + α 1 ⋅ D i t ′ + ξ i t ′ y_{it} = \beta_0 + \beta_1 · D_{it} + \mu_{it} \\ y_{it'} = \alpha_0 + \alpha_1 · D_{it'} + \xi_{it'} yit=β0+β1Dit+μityit=α0+α1Dit+ξit

β 1 ^ = E ( y i t ∣ D i = 1 ) − E ( y i t ∣ D i = 0 ) α 1 ^ = E ( y i t ′ ∣ D i = 1 ) − E ( y i t ′ ∣ D i = 0 ) \hat{\beta_1} = E(y_{it}| D_i =1) - E(y_{it}|D_i=0) \\ \hat{\alpha_1} = E(y_{it'}| D_i =1) - E(y_{it'}|D_i=0) β1^=E(yitDi=1)E(yitDi=0)α1^=E(yitDi=1)E(yitDi=0)

这两个估计量分别表示了两期的固有偏误。构造:
δ = β ^ − α ^ = A T T ^ = ( E ( y i t ∣ D i = 1 ) − E ( y i t ∣ D i = 0 ) ) − ( E ( y i t ′ ∣ D i = 1 ) − E ( y i t ′ ∣ D i = 0 ) ) = ( E ( y i t ∣ D i = 1 ) − E ( y i t ′ ∣ D i = 1 ) ) − ( E ( y i t ∣ D i = 0 ) − E ( y i t ′ ∣ D i = 0 ) ) \delta = \hat{\beta} - \hat{\alpha} \\= \hat{ATT} \\= (E(y_{it}| D_i =1) - E(y_{it}|D_i=0))- (E(y_{it'}| D_i =1) - E(y_{it'}|D_i=0)) \\ = (E(y_{it}| D_i =1) - E(y_{it'}| D_i =1)) - (E(y_{it}|D_i=0) - E(y_{it'}|D_i=0) ) δ=β^α^=ATT^=(E(yitDi=1)E(yitDi=0))(E(yitDi=1)E(yitDi=0))=(E(yitDi=1)E(yitDi=1))(E(yitDi=0)E(yitDi=0))
δ ^ \hat{\delta} δ^ 即为DID估计量。将DID中的两个式子合并,可得:
y i t = β 0 + β 1 ⋅ a f t e r + β 2 ⋅ t r e a t + δ ⋅ a f t e r ⋅ t r e a t + ⋅ ⋅ ⋅ ⋅ ⋅ y_{it} = \beta_0 + \beta_1 · after + \beta_2·treat + \delta·after·treat + ····· yit=β0+β1after+β2treat+δaftertreat+
可以发现式子中 δ ^ \hat{\delta} δ^ 即为所求。

很明显可以看出,DID方法的应用前提是平行趋势。

然而很多情况下,平行趋势假设并不能得到满足,也就是说,处理组和对照的时间趋势并不平行,举个例子:

假设针对河南(H)的65岁以上老人实施了某一项医疗政策,我们想了解该政策对老年人健康状况的改善,这时我们可以选择两个对照组,一是H省65以下的年轻人为对照组,二是邻近的山东省(S)的老年人作为对照组,但是这两种对照组本身存在的问题是,该省65岁以下年轻人的健康情况发展趋势本身就比65岁以上老人要好,时间趋势并不平行,二是邻近的S省老年人的健康发展趋势和H省也不平行,为此我们可以想到的办法是,以邻近的S省的情况估计这两种发展趋势的差异。以第一种情况为例:

我们对DID估计量进行改造,使其变为DDD估计量:
δ ^ = [ ( E ( y i H t ∣ D i = 1 ) − E ( y i H t ∣ D i = 0 ) ) − ( E ( y i H t ′ ∣ D i = 1 ) − E ( y i H t ′ ∣ D i = 0 ) ) ] − [ ( E ( y i S t ∣ D i = 1 ) − E ( y i S t ∣ D i = 0 ) ) − ( E ( y i S t ′ ∣ D i = 1 ) − E ( y i S t ′ ∣ D i = 0 ) ) ] \hat{\delta} = [(E(y_{iHt}| D_i =1) - E(y_{iHt}|D_i=0))- (E(y_{iHt'}| D_i =1) - E(y_{iHt'}|D_i=0))] \\ -[(E(y_{iSt}| D_i =1) - E(y_{iSt}|D_i=0))- (E(y_{iSt'}| D_i =1) - E(y_{iSt'}|D_i=0))] δ^=[(E(yiHtDi=1)E(yiHtDi=0))(E(yiHtDi=1)E(yiHtDi=0))][(E(yiStDi=1)E(yiStDi=0))(E(yiStDi=1)E(yiStDi=0))]
更清晰的,我们用简化的表达式:
δ ^ = [ ( y H T 2 − y H T 1 ) − ( y H C 2 − y H C 1 ) ] − [ ( y H T 2 − y H T 1 ) − ( y H C 2 − y H C 1 ) ] \hat{\delta} = [(y_{HT2} - y_{HT1}) - (y_{HC2}-y_{HC1})] - [(y_{HT2} - y_{HT1}) - (y_{HC2}-y_{HC1})] δ^=[(yHT2yHT1)(yHC2yHC1)][(yHT2yHT1)(yHC2yHC1)]
为了清楚表示,通过下面这张图来展示:

在这里插入图片描述

为了简化起见,在第一种情况下,也就是以H省年轻人为对照组的前提下,假设S省和H省的老年人和年轻人分别拥有相同的健康发展趋势。此时可以从图中看出,DDD估计量为 ( A − B ) − ( C − B ) = A − C (A-B)-(C-B)=A - C (AB)(CB)=AC

很明显可以看出A-C即为所求,通过三重差分的方式,将不平行的时间趋势消除掉了,DDD估计量的估计方程可以写作:
y i t = β 0 + β 1 H + β 2 T + β 3 A + δ H ⋅ A ⋅ T + ξ i t y_{it} = \beta_0 + \beta_1 H + \beta_2 T + \beta_3 A + \delta H·A·T + \xi_{it} yit=β0+β1H+β2T+β3A+δHAT+ξit

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值