因果推断(五):RDD断点回归设计中处置效应的计算

一、RDD中LATE的计算方式

在这里插入图片描述

二、 两次回归

所谓的两次回归指的是,在断点左边和右边,根据数据样本,分别拟合一条曲线。两条曲线在断点这条直线上的截距项,作为我们想要估计的 L A T E LATE LATE
在这里插入图片描述

断点左边这条线外层指定的函数是: Y 0 = α 0 0 + β 1 0 x + ϵ 0 (1) Y^0=\alpha_0^0+\beta_1^0x+\epsilon_0 \tag{1} Y0=α00+β10x+ϵ0(1)假设 x x x表示高考得分: Y Y Y表示收入,处置为进入一本或不进入一本,则式中的:

  1. α 0 0 \alpha_0^0 α00指的是截距项,即不受高考得分影响的平均收入水平;
  2. β 1 0 \beta_1^0 β10指的斜率,即收入随着高考得分增长的边际价值
  3. ϵ 0 \epsilon_0 ϵ0指的随机误差项,即模型无法完全捕捉的随机性和不确定性;
  4. Y 0 Y^0 Y0表示 x < c x<c x<c(断点)的结果。

右边这条线指定的函数是: Y 1 = α 0 1 + β 1 1 x + β 2 ∗ D + ϵ 1 (2) Y^1=\alpha_0^1+\beta_1^1x+\beta_2*D+\epsilon_1 \tag{2} Y1=α01+β11x+β2D+ϵ1(2)式中的:

  1. α 0 1 \alpha_0^1 α01指的是截距项,即不受高考得分影响和是否上一本的平均收入水平;
  2. β 1 1 \beta_1^1 β11指的斜率,即收入随着高考得分增长的边际价值
  3. β 2 1 \beta_2^1 β21是我们想要的 L A T E LATE LATE,即处置的边际价值 ϵ 1 \epsilon_1 ϵ1指的随机误差项,即模型无法完全捕捉的随机性和不确定性;
  4. Y 1 Y^1 Y1表示 x > c x>c x>c(断点)的结果。

此时 L A T E LATE LATE的推导如下:
L A T E = E ( Y 1 − Y 0 ∣ x = c ) = ( α 0 1 + β 1 1 x + β 2 ∗ D + ϵ 1 ) − ( α 0 0 + β 1 0 x + ϵ 0 ) (3) LATE = E(Y^1-Y^0|x=c)= (\alpha_0^1+\beta_1^1x+\beta_2*D+\epsilon_1)- (\alpha_0^0+\beta_1^0x+\epsilon_0) \tag {3} LATE=E(Y1Y0x=c)=(α01+β11x+β2D+ϵ1)(α00+β10x+ϵ0)(3)
因为 α 0 0 \alpha_0^0 α00 α 0 1 \alpha_0^1 α01都表示不受高考分数和处置影响的平均收入水平,所以:
α 0 0 = α 0 1 (4) \alpha_0^0 = \alpha_0^1 \tag{4} α00=α01(4)
因此,忽略掉两个误差项后:
L A T E = ( β 1 1 − β 1 0 ) ∗ x + β 2 (5) LATE=(\beta_1^1-\beta_1^0)*x+\beta_2 \tag{5} LATE=(β11β10)x+β2(5)
若左右两边回归函数的斜率一致,即:
β 1 1 = β 1 0 (6) \beta_1^1 =\beta_1^0 \tag{6} β11=β10(6)
则:
L A T E = β 2 (7) LATE=\beta_2 \tag{7} LATE=β2(7)
否则:
L A T E = ( β 1 1 − β 1 0 ) ∗ c + β 2 (8) LATE=(\beta_1^1-\beta_1^0)*c+\beta_2 \tag{8} LATE=(β11β10)c+β2(8)
问题一:怎么看待回归曲线斜率不一致的问题?等我知道了再补充。🐶

三、一次回归

所谓的一次回归,指的是直接用一个函数做拟合,其实本质和上面是一样的,只是两个式子合并成了用一个式子表达:
Y = α 0 + β 1 x + β 2 ∗ D + β 3 ∗ x ∗ D + ϵ (9) Y =\alpha_0+\beta_1x+\beta_2*D+\beta_3*x*D+\epsilon \tag{9} Y=α0+β1x+β2D+β3xD+ϵ(9)
为什么可以写成这样呢?我们分别看下处置 D = 0 D=0 D=0和不处置 D = 1 D=1 D=1时,这个式子会变成什么样:
Y = { α 0 + β 1 x + ϵ x < c , D = 0 α 0 + β 1 x + β 2 + β 3 ∗ x + ϵ x > c , D = 1 (10) Y=\begin{cases} \alpha_0+\beta_1x+\epsilon & x<c,D=0 \\ \alpha_0+\beta_1x+\beta_2+\beta_3*x+\epsilon & x>c,D=1 \\ \end{cases} \tag{10} Y={α0+β1x+ϵα0+β1x+β2+β3x+ϵx<c,D=0x>c,D=1(10)
上式的第一个表达式是不是和式(1)一样?就不用再解释啦。关键是第二个表达式怎么理解?第二个式子跟式(2)唯一的区别是多了一个交互项: β 3 ∗ x \beta_3*x β3x,这里其实是为了考虑左右两边回归曲线的斜率不一致的场景,当 β 3 = 0 \beta_3=0 β3=0时,左右两边回归曲线的斜率相等,否则不等。

此时的LATE为:
Y 1 − Y 0 = ( α 0 + β 1 c + β 2 + β 3 c + ϵ ) − ( α 0 + β 1 c + ϵ ) = β 2 + β 3 c (11) Y^1-Y^0=(\alpha_0+\beta_1c+\beta_2+\beta_3c+\epsilon)-(\alpha_0+\beta_1c+\epsilon)=\beta_2+\beta_3c \tag{11} Y1Y0=(α0+β1c+β2+β3c+ϵ)(α0+β1c+ϵ)=β2+β3c(11)

四、去中心化

所谓去中心化,就是将:
Y = α 0 + β 1 x + β 2 ∗ D + β 3 ∗ x ∗ D + ϵ (9) Y =\alpha_0+\beta_1x+\beta_2*D+\beta_3*x*D+\epsilon \tag{9} Y=α0+β1x+β2D+β3xD+ϵ(9)
中凡是涉及 x x x的项,都用 x − c x-c xc来代替,即变成:
Y = α 0 + β 1 ( x − c ) + β 2 ∗ D + β 3 ∗ ( x − c ) ∗ D + ϵ (12) Y =\alpha_0+\beta_1(x-c)+\beta_2*D+\beta_3*(x-c)*D+\epsilon \tag{12} Y=α0+β1(xc)+β2D+β3(xc)D+ϵ(12)
这么做有什么好处呢?我们先来推导一下去中心化以后的 L A T E LATE LATE
x > c , D = 1 时: Y 1 = α 0 + β 1 ( x − c ) + β 2 + β 3 ∗ ( x − c ) + ϵ (13) x>c, D=1时:Y^1=\alpha_0+\beta_1(x-c)+\beta_2+\beta_3*(x-c)+\epsilon \tag{13} x>c,D=1时:Y1=α0+β1(xc)+β2+β3(xc)+ϵ(13)
x < c , D = 0 时: Y 0 = α 0 + β 1 ( x − c ) + ϵ (14) x<c, D=0时:Y^0=\alpha_0+\beta_1(x-c)+\epsilon \tag{14} x<c,D=0时:Y0=α0+β1(xc)+ϵ(14)
因此 L A T E LATE LATE可以表示为:
Y 1 − Y 0 = β 2 Y^1-Y^0=\beta_2 Y1Y0=β2
可以看到去中心化前后的LATE计算的表达式分别为: β 2 + β 3 c \beta_2+\beta_3c β2+β3c β 2 \beta_2 β2。看起来是不是很困惑?到底哪个是对的呢?其实这两个是相等的!我们将式(12)换一套字符表达:
Y = α 0 ′ + β 1 ′ ( x − c ) + β 2 ′ ∗ D + β 3 ′ ∗ ( x − c ) ∗ D + ϵ (15) Y =\alpha_0^{'}+\beta_1^{'}(x-c)+\beta_2^{'}*D+\beta_3^{'}*(x-c)*D+\epsilon \tag{15} Y=α0+β1(xc)+β2D+β3(xc)D+ϵ(15)
然后我们再来比较下去中心化之前的式(9):
Y = α 0 + β 1 x + β 2 ∗ D + β 3 ∗ x ∗ D + ϵ (9) Y =\alpha_0+\beta_1x+\beta_2*D+\beta_3*x*D+\epsilon \tag{9} Y=α0+β1x+β2D+β3xD+ϵ(9)
和去中心化之后的式(15):
Y = α 0 ′ + β 1 ′ ( x − c ) + β 2 ′ ∗ D + β 3 ′ ∗ ( x − c ) ∗ D + ϵ (15) Y =\alpha_0^{'}+\beta_1^{'}(x-c)+\beta_2^{'}*D+\beta_3^{'}*(x-c)*D+\epsilon \tag{15} Y=α0+β1(xc)+β2D+β3(xc)D+ϵ(15)
我们将式(15)展开可以得到:
Y = α 0 ′ + β 1 ′ x + ( β 2 ′ − β 3 ′ c ) ∗ D + β 3 ′ ∗ x ∗ D − β 1 ′ c + ϵ (16) Y =\alpha_0^{'}+\beta_1^{'}x+(\beta_2^{'}-\beta_3^{'}c)*D+\beta_3^{'}*x*D-\beta_1^{'}c+\epsilon \tag{16} Y=α0+β1x+(β2β3c)D+β3xDβ1c+ϵ(16)
可以看到:
α 0 = α 0 ′ , β 1 = β 1 ′ , β 3 = β 3 ′ , β 2 = β 2 ′ − β 3 ′ c , \alpha_0 = \alpha_0^{'}, \beta_1 = \beta_1^{'}, \beta_3 = \beta_3^{'}, \beta_2 =\beta_2^{'}-\beta_3^{'}c, α0=α0,β1=β1,β3=β3,β2=β2β3c,
从最后一个等式可以推出:
β 2 ′ = β 2 + β 3 ′ c , \beta_2^{'} = \beta_2+\beta_3^{'}c , β2=β2+β3c,
因为:
β 3 = β 3 ′ , \beta_3 = \beta_3^{'}, β3=β3,
所以:
β 2 ′ = β 2 + β 3 c , \beta_2^{'} = \beta_2+\beta_3c , β2=β2+β3c,

等式前一项是去中心化之后的 L A T E LATE LATE,等式的后一项是去中心化之前的的 L A T E LATE LATE!!!这也是为什么说去中心化理论上并不会改变计算的LATE的值。

好了,最后总结下为什么要去中心化:由于去中心化后, L A T E LATE LATE只与一个估计量相关啦,相比去中心化之前的与两个估计量相关,自然估计的偏差会小一点(无偏性更好),因为多个参数估计的误差是会累积的,同时,方差也会小一点(有效性更强)。一致性我们刚刚推导过程中已经保证了。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值