一、RDD中LATE的计算方式
二、 两次回归
所谓的两次回归指的是,在断点左边和右边,根据数据样本,分别拟合一条曲线。两条曲线在断点这条直线上的截距项,作为我们想要估计的
L
A
T
E
LATE
LATE。
断点左边这条线外层指定的函数是: Y 0 = α 0 0 + β 1 0 x + ϵ 0 (1) Y^0=\alpha_0^0+\beta_1^0x+\epsilon_0 \tag{1} Y0=α00+β10x+ϵ0(1)假设 x x x表示高考得分: Y Y Y表示收入,处置为进入一本或不进入一本,则式中的:
- α 0 0 \alpha_0^0 α00指的是截距项,即不受高考得分影响的平均收入水平;
- β 1 0 \beta_1^0 β10指的斜率,即收入随着高考得分增长的边际价值;
- ϵ 0 \epsilon_0 ϵ0指的随机误差项,即模型无法完全捕捉的随机性和不确定性;
- Y 0 Y^0 Y0表示 x < c x<c x<c(断点)的结果。
右边这条线指定的函数是: Y 1 = α 0 1 + β 1 1 x + β 2 ∗ D + ϵ 1 (2) Y^1=\alpha_0^1+\beta_1^1x+\beta_2*D+\epsilon_1 \tag{2} Y1=α01+β11x+β2∗D+ϵ1(2)式中的:
- α 0 1 \alpha_0^1 α01指的是截距项,即不受高考得分影响和是否上一本的平均收入水平;
- β 1 1 \beta_1^1 β11指的斜率,即收入随着高考得分增长的边际价值;
- β 2 1 \beta_2^1 β21是我们想要的 L A T E LATE LATE,即处置的边际价值; ϵ 1 \epsilon_1 ϵ1指的随机误差项,即模型无法完全捕捉的随机性和不确定性;
- Y 1 Y^1 Y1表示 x > c x>c x>c(断点)的结果。
此时
L
A
T
E
LATE
LATE的推导如下:
L
A
T
E
=
E
(
Y
1
−
Y
0
∣
x
=
c
)
=
(
α
0
1
+
β
1
1
x
+
β
2
∗
D
+
ϵ
1
)
−
(
α
0
0
+
β
1
0
x
+
ϵ
0
)
(3)
LATE = E(Y^1-Y^0|x=c)= (\alpha_0^1+\beta_1^1x+\beta_2*D+\epsilon_1)- (\alpha_0^0+\beta_1^0x+\epsilon_0) \tag {3}
LATE=E(Y1−Y0∣x=c)=(α01+β11x+β2∗D+ϵ1)−(α00+β10x+ϵ0)(3)
因为
α
0
0
\alpha_0^0
α00和
α
0
1
\alpha_0^1
α01都表示不受高考分数和处置影响的平均收入水平,所以:
α
0
0
=
α
0
1
(4)
\alpha_0^0 = \alpha_0^1 \tag{4}
α00=α01(4)
因此,忽略掉两个误差项后:
L
A
T
E
=
(
β
1
1
−
β
1
0
)
∗
x
+
β
2
(5)
LATE=(\beta_1^1-\beta_1^0)*x+\beta_2 \tag{5}
LATE=(β11−β10)∗x+β2(5)
若左右两边回归函数的斜率一致,即:
β
1
1
=
β
1
0
(6)
\beta_1^1 =\beta_1^0 \tag{6}
β11=β10(6)
则:
L
A
T
E
=
β
2
(7)
LATE=\beta_2 \tag{7}
LATE=β2(7)
否则:
L
A
T
E
=
(
β
1
1
−
β
1
0
)
∗
c
+
β
2
(8)
LATE=(\beta_1^1-\beta_1^0)*c+\beta_2 \tag{8}
LATE=(β11−β10)∗c+β2(8)
问题一:怎么看待回归曲线斜率不一致的问题?等我知道了再补充。🐶
三、一次回归
所谓的一次回归,指的是直接用一个函数做拟合,其实本质和上面是一样的,只是两个式子合并成了用一个式子表达:
Y
=
α
0
+
β
1
x
+
β
2
∗
D
+
β
3
∗
x
∗
D
+
ϵ
(9)
Y =\alpha_0+\beta_1x+\beta_2*D+\beta_3*x*D+\epsilon \tag{9}
Y=α0+β1x+β2∗D+β3∗x∗D+ϵ(9)
为什么可以写成这样呢?我们分别看下处置
D
=
0
D=0
D=0和不处置
D
=
1
D=1
D=1时,这个式子会变成什么样:
Y
=
{
α
0
+
β
1
x
+
ϵ
x
<
c
,
D
=
0
α
0
+
β
1
x
+
β
2
+
β
3
∗
x
+
ϵ
x
>
c
,
D
=
1
(10)
Y=\begin{cases} \alpha_0+\beta_1x+\epsilon & x<c,D=0 \\ \alpha_0+\beta_1x+\beta_2+\beta_3*x+\epsilon & x>c,D=1 \\ \end{cases} \tag{10}
Y={α0+β1x+ϵα0+β1x+β2+β3∗x+ϵx<c,D=0x>c,D=1(10)
上式的第一个表达式是不是和式(1)一样?就不用再解释啦。关键是第二个表达式怎么理解?第二个式子跟式(2)唯一的区别是多了一个交互项:
β
3
∗
x
\beta_3*x
β3∗x,这里其实是为了考虑左右两边回归曲线的斜率不一致的场景,当
β
3
=
0
\beta_3=0
β3=0时,左右两边回归曲线的斜率相等,否则不等。
此时的LATE为:
Y
1
−
Y
0
=
(
α
0
+
β
1
c
+
β
2
+
β
3
c
+
ϵ
)
−
(
α
0
+
β
1
c
+
ϵ
)
=
β
2
+
β
3
c
(11)
Y^1-Y^0=(\alpha_0+\beta_1c+\beta_2+\beta_3c+\epsilon)-(\alpha_0+\beta_1c+\epsilon)=\beta_2+\beta_3c \tag{11}
Y1−Y0=(α0+β1c+β2+β3c+ϵ)−(α0+β1c+ϵ)=β2+β3c(11)
四、去中心化
所谓去中心化,就是将:
Y
=
α
0
+
β
1
x
+
β
2
∗
D
+
β
3
∗
x
∗
D
+
ϵ
(9)
Y =\alpha_0+\beta_1x+\beta_2*D+\beta_3*x*D+\epsilon \tag{9}
Y=α0+β1x+β2∗D+β3∗x∗D+ϵ(9)
中凡是涉及
x
x
x的项,都用
x
−
c
x-c
x−c来代替,即变成:
Y
=
α
0
+
β
1
(
x
−
c
)
+
β
2
∗
D
+
β
3
∗
(
x
−
c
)
∗
D
+
ϵ
(12)
Y =\alpha_0+\beta_1(x-c)+\beta_2*D+\beta_3*(x-c)*D+\epsilon \tag{12}
Y=α0+β1(x−c)+β2∗D+β3∗(x−c)∗D+ϵ(12)
这么做有什么好处呢?我们先来推导一下去中心化以后的
L
A
T
E
LATE
LATE:
x
>
c
,
D
=
1
时:
Y
1
=
α
0
+
β
1
(
x
−
c
)
+
β
2
+
β
3
∗
(
x
−
c
)
+
ϵ
(13)
x>c, D=1时:Y^1=\alpha_0+\beta_1(x-c)+\beta_2+\beta_3*(x-c)+\epsilon \tag{13}
x>c,D=1时:Y1=α0+β1(x−c)+β2+β3∗(x−c)+ϵ(13)
x
<
c
,
D
=
0
时:
Y
0
=
α
0
+
β
1
(
x
−
c
)
+
ϵ
(14)
x<c, D=0时:Y^0=\alpha_0+\beta_1(x-c)+\epsilon \tag{14}
x<c,D=0时:Y0=α0+β1(x−c)+ϵ(14)
因此
L
A
T
E
LATE
LATE可以表示为:
Y
1
−
Y
0
=
β
2
Y^1-Y^0=\beta_2
Y1−Y0=β2
可以看到去中心化前后的LATE计算的表达式分别为:
β
2
+
β
3
c
\beta_2+\beta_3c
β2+β3c和
β
2
\beta_2
β2。看起来是不是很困惑?到底哪个是对的呢?其实这两个是相等的!我们将式(12)换一套字符表达:
Y
=
α
0
′
+
β
1
′
(
x
−
c
)
+
β
2
′
∗
D
+
β
3
′
∗
(
x
−
c
)
∗
D
+
ϵ
(15)
Y =\alpha_0^{'}+\beta_1^{'}(x-c)+\beta_2^{'}*D+\beta_3^{'}*(x-c)*D+\epsilon \tag{15}
Y=α0′+β1′(x−c)+β2′∗D+β3′∗(x−c)∗D+ϵ(15)
然后我们再来比较下去中心化之前的式(9):
Y
=
α
0
+
β
1
x
+
β
2
∗
D
+
β
3
∗
x
∗
D
+
ϵ
(9)
Y =\alpha_0+\beta_1x+\beta_2*D+\beta_3*x*D+\epsilon \tag{9}
Y=α0+β1x+β2∗D+β3∗x∗D+ϵ(9)
和去中心化之后的式(15):
Y
=
α
0
′
+
β
1
′
(
x
−
c
)
+
β
2
′
∗
D
+
β
3
′
∗
(
x
−
c
)
∗
D
+
ϵ
(15)
Y =\alpha_0^{'}+\beta_1^{'}(x-c)+\beta_2^{'}*D+\beta_3^{'}*(x-c)*D+\epsilon \tag{15}
Y=α0′+β1′(x−c)+β2′∗D+β3′∗(x−c)∗D+ϵ(15)
我们将式(15)展开可以得到:
Y
=
α
0
′
+
β
1
′
x
+
(
β
2
′
−
β
3
′
c
)
∗
D
+
β
3
′
∗
x
∗
D
−
β
1
′
c
+
ϵ
(16)
Y =\alpha_0^{'}+\beta_1^{'}x+(\beta_2^{'}-\beta_3^{'}c)*D+\beta_3^{'}*x*D-\beta_1^{'}c+\epsilon \tag{16}
Y=α0′+β1′x+(β2′−β3′c)∗D+β3′∗x∗D−β1′c+ϵ(16)
可以看到:
α
0
=
α
0
′
,
β
1
=
β
1
′
,
β
3
=
β
3
′
,
β
2
=
β
2
′
−
β
3
′
c
,
\alpha_0 = \alpha_0^{'}, \beta_1 = \beta_1^{'}, \beta_3 = \beta_3^{'}, \beta_2 =\beta_2^{'}-\beta_3^{'}c,
α0=α0′,β1=β1′,β3=β3′,β2=β2′−β3′c,
从最后一个等式可以推出:
β
2
′
=
β
2
+
β
3
′
c
,
\beta_2^{'} = \beta_2+\beta_3^{'}c ,
β2′=β2+β3′c,
因为:
β
3
=
β
3
′
,
\beta_3 = \beta_3^{'},
β3=β3′,
所以:
β
2
′
=
β
2
+
β
3
c
,
\beta_2^{'} = \beta_2+\beta_3c ,
β2′=β2+β3c,
等式前一项是去中心化之后的
L
A
T
E
LATE
LATE,等式的后一项是去中心化之前的的
L
A
T
E
LATE
LATE!!!这也是为什么说去中心化理论上并不会改变计算的LATE的值。
好了,最后总结下为什么要去中心化:由于去中心化后, L A T E LATE LATE只与一个估计量相关啦,相比去中心化之前的与两个估计量相关,自然估计的偏差会小一点(无偏性更好),因为多个参数估计的误差是会累积的,同时,方差也会小一点(有效性更强)。一致性我们刚刚推导过程中已经保证了。