RDD(断点回归)
如果知道确定人员/公司的哪一部分是处理组的分配规则,就有机会应用RDD来识别因果关系。
y
=
δ
D
+
X
β
+
ε
D
=
{
1
S
≥
S
ˉ
0
S
<
S
ˉ
y=\delta D+X\beta +\varepsilon\\D=\begin{cases}1\ \ \ S\geq \bar{S}\\0\ \ \ S< \bar{S}\end{cases}
y=δD+Xβ+εD={1 S≥Sˉ0 S<Sˉ
假设
t
r
e
a
t
m
e
n
t
treatment
treatment 是二值变量,
D
=
1
o
r
D
=
0
,
Y
i
D=1\ or\ D=0,Y_i
D=1 or D=0,Yi 是person i 的收入。
潜在结果 Y i 0 Y_i^0 Yi0:当D=0时。潜在结果 Y i 1 Y_i^1 Yi1:当D=1时。如果我们知道了以上两者,就可以得到对person i 的因果效应/处理效应: Y i 1 − Y i 0 Y_i^1-Y_i^0 Yi1−Yi0。
平均因果效应/平均处理效应: A T E = E [ Y 1 − Y 0 ] ATE=E[Y^1-Y^0] ATE=E[Y1−Y0]。
但是,我们不能在同一时刻观察到
Y
1
,
Y
0
Y^1,Y^0
Y1,Y0,因为这两个潜在的结果从来不会同时发生。我们观察到的是有关D的以下公式:
Y
=
D
×
Y
1
+
(
1
−
D
)
×
Y
0
Y=D\times Y^1+(1-D)\times Y^0
Y=D×Y1+(1−D)×Y0
当D是随机的,此时
(
Y
0
,
Y
1
)
⊥
D
(Y^0,Y^1)\bot D
(Y0,Y1)⊥D,有以下:
E
(
Y
∣
D
=
1
)
=
E
(
Y
1
∣
D
=
1
)
=
E
(
Y
1
)
E
(
Y
∣
D
=
0
)
=
E
(
Y
0
∣
D
=
0
)
=
E
(
Y
0
)
E
(
Y
∣
D
=
1
)
−
E
(
Y
∣
D
=
0
)
=
E
(
Y
1
−
Y
0
)
=
A
T
E
E(Y|D=1)=E(Y^1|D=1)=E(Y^1)\\E(Y|D=0)=E(Y^0|D=0)=E(Y^0)\\E(Y|D=1)-E(Y|D=0)=E(Y^1-Y^0)=ATE
E(Y∣D=1)=E(Y1∣D=1)=E(Y1)E(Y∣D=0)=E(Y0∣D=0)=E(Y0)E(Y∣D=1)−E(Y∣D=0)=E(Y1−Y0)=ATE
但大多数情况下,存在选择问题:对于D=1的
Y
1
Y^1
Y1 的分布与对于所有人的
Y
1
Y^1
Y1 的分布不一样:
E
(
Y
∣
D
=
1
)
=
E
(
Y
1
∣
D
=
1
)
≠
E
(
Y
1
)
E
(
Y
∣
D
=
0
)
=
E
(
Y
0
∣
D
=
0
)
≠
E
(
Y
0
)
E
(
Y
∣
D
=
1
)
−
E
(
Y
∣
D
=
0
)
≠
E
(
Y
1
−
Y
0
)
=
A
T
E
E(Y|D=1)=E(Y^1|D=1)\neq E(Y^1)\\E(Y|D=0)=E(Y^0|D=0)\neq E(Y^0)\\E(Y|D=1)-E(Y|D=0)\neq E(Y^1-Y^0)=ATE
E(Y∣D=1)=E(Y1∣D=1)=E(Y1)E(Y∣D=0)=E(Y0∣D=0)=E(Y0)E(Y∣D=1)−E(Y∣D=0)=E(Y1−Y0)=ATE
在回归规范中,我们观察到的结果是
y
i
=
α
+
β
i
D
i
+
u
i
E
(
y
i
∣
D
i
=
1
)
=
α
+
E
(
β
i
∣
D
i
=
1
)
+
E
(
u
i
∣
D
i
=
1
)
E
(
y
i
∣
D
i
=
0
)
=
α
+
E
(
u
i
∣
D
i
=
0
)
d
i
f
f
e
r
e
n
c
e
:
E
(
y
i
∣
D
i
=
1
)
−
E
(
y
i
∣
D
i
=
0
)
=
E
(
β
i
∣
D
i
=
1
)
+
E
(
u
i
∣
D
i
=
1
)
−
E
(
u
i
∣
D
i
=
0
)
y_i=\alpha+\beta_iD_i+u_i\\E(y_i|D_i=1)=\alpha+E(\beta_i|D_i=1)+E(u_i|D_i=1)\\E(y_i|D_i=0)=\alpha+E(u_i|D_i=0)\\difference:E(y_i|D_i=1)-E(y_i|D_i=0)=E(\beta_i|D_i=1)+E(u_i|D_i=1)-E(u_i|D_i=0)
yi=α+βiDi+uiE(yi∣Di=1)=α+E(βi∣Di=1)+E(ui∣Di=1)E(yi∣Di=0)=α+E(ui∣Di=0)difference:E(yi∣Di=1)−E(yi∣Di=0)=E(βi∣Di=1)+E(ui∣Di=1)−E(ui∣Di=0)
同时,我们也有:
E
(
β
i
)
=
P
r
(
D
i
=
1
)
E
(
β
i
∣
D
i
=
1
)
+
P
r
(
D
i
=
0
)
E
(
β
i
∣
D
i
=
0
)
=
[
1
−
P
r
(
D
i
=
0
)
]
E
(
β
i
∣
D
i
=
1
)
+
P
r
(
D
i
=
0
)
E
(
β
i
∣
D
i
=
0
)
=
E
(
β
i
∣
D
i
=
1
)
−
P
r
(
D
i
=
0
)
[
E
(
β
i
∣
D
i
=
1
)
−
E
(
β
i
∣
D
i
=
0
)
]
E(\beta_i)=Pr(D_i=1)E(\beta_i|D_i=1)+Pr(D_i=0)E(\beta_i|D_i=0)\\=[1-Pr(D_i=0)]E(\beta_i|D_i=1)+Pr(D_i=0)E(\beta_i|D_i=0)\\=E(\beta_i|D_i=1)-Pr(D_i=0)[E(\beta_i|D_i=1)-E(\beta_i|D_i=0)]
E(βi)=Pr(Di=1)E(βi∣Di=1)+Pr(Di=0)E(βi∣Di=0)=[1−Pr(Di=0)]E(βi∣Di=1)+Pr(Di=0)E(βi∣Di=0)=E(βi∣Di=1)−Pr(Di=0)[E(βi∣Di=1)−E(βi∣Di=0)]
所以可以得到:
E
(
y
i
∣
D
i
=
1
)
−
E
(
y
i
∣
D
i
=
0
)
=
E
(
β
i
)
+
[
E
(
u
i
∣
D
i
=
1
)
−
E
(
u
i
∣
D
i
=
0
)
]
+
P
r
(
D
i
=
0
)
[
E
(
β
i
∣
D
i
=
1
)
−
E
(
β
i
∣
D
i
=
0
)
]
E(y_i|D_i=1)-E(y_i|D_i=0)=E(\beta_i)+[E(u_i|D_i=1)-E(u_i|D_i=0)]+Pr(D_i=0)[E(\beta_i|D_i=1)-E(\beta_i|D_i=0)]
E(yi∣Di=1)−E(yi∣Di=0)=E(βi)+[E(ui∣Di=1)−E(ui∣Di=0)]+Pr(Di=0)[E(βi∣Di=1)−E(βi∣Di=0)]
清晰断点回归(Sharp RDD)
分组变量:清晰(Sharp)是指仅根据观察到的连续变量的截止值来分配或选择进行处理的样本。
阈值:赋值变量值低于截止值x的在控制组(对照组),D=0;高于截止值x的在处理组(实验组),D=1。
关键假设:
-
分配通过一个已知的和被测量的确定性决策规则发生, D = D ( X ) = I ( X ≥ x ) D=D(X)=I(X\geq x) D=D(X)=I(X≥x)。关注的变量X在截止值x附近有一个正密度。
-
分配概率在截止值x从0跳到1。
问题在于,分配变量可能与结果变量相关。在比较处理组和控制组的平均值时,D对y的影响可能会被X混淆。
解决办法:
-
在方程右边包括进X,假设以线性的形式
-
使用匹配方法:需要两个假设
- 不混淆:u独立于X条件下的D
- 0<Pr(D=1|x)<1,对所有x成立;但这违反了清晰断点回归的假设2
-
局部连续性
E ( u i ∣ x ) 、 E ( β i ∣ x ) E(u_i|x)、E(\beta_i|x) E(ui∣x)、E(βi∣x) 对于 X X X 而言在 x x x 处连续,等价于: E ( y i ∣ D i = 1 , x ) 、 E ( y i ∣ D i = 0 , x ) E(y_i|D_i=1,x)、E(y_i|D_i=0,x) E(yi∣Di=1,x)、E(yi∣Di=0,x) 对于 X X X 而言在 x x x 处连续。接近阈值x且x值相似的人是可比较的(截止值x以上及以下)。
总结所有假设,我们得到:
l
i
m
X
→
x
+
E
(
y
i
∣
x
)
−
l
i
m
X
→
x
−
E
(
y
i
∣
x
)
=
[
l
i
m
X
→
x
+
E
(
β
i
D
i
∣
x
)
+
l
i
m
X
→
x
+
E
(
u
i
∣
x
)
]
−
[
l
i
m
X
→
x
−
E
(
β
i
D
i
∣
x
)
+
l
i
m
X
→
x
−
E
(
u
i
∣
x
)
]
=
E
(
β
i
∣
x
)
lim_{X\rightarrow x^+}E(y_i|x)-lim_{X\rightarrow x^-}E(y_i|x)=[lim_{X\rightarrow x^+}E(\beta_iD_i|x)+lim_{X\rightarrow x^+}E(u_i|x)]-[lim_{X\rightarrow x^-}E(\beta_iD_i|x)+lim_{X\rightarrow x^-}E(u_i|x)]\\=E(\beta_i|x)
limX→x+E(yi∣x)−limX→x−E(yi∣x)=[limX→x+E(βiDi∣x)+limX→x+E(ui∣x)]−[limX→x−E(βiDi∣x)+limX→x−E(ui∣x)]=E(βi∣x)
比较截止值以上和以下的平均结果可以确定接近截止值的样本的ATE。
事实上,如果没有共同效应假设 β i = β \beta_i=\beta βi=β,我们只能得到接近截止点的样本的处理效果,局部效应在离阈值远的地方可能变化很大。
模糊断点回归(Furry RDD)
在模糊断点回归中,处理分配随机的由x决定,但倾向得分函数
P
r
(
D
=
1
∣
X
)
Pr(D=1|X)
Pr(D=1∣X) 在x处有已知的不连续性。模糊断点回归中:
0
<
l
i
m
X
→
x
+
P
r
(
D
=
1
∣
X
)
−
l
i
m
X
→
x
−
P
r
(
D
=
1
∣
X
)
<
1
0<lim_{X\rightarrow x^+}Pr(D=1|X)-lim_{X\rightarrow x^-}Pr(D=1|X)<1
0<limX→x+Pr(D=1∣X)−limX→x−Pr(D=1∣X)<1
模糊断点回归与清晰断点回归之间的关键区别在于,在模糊RDD中,分配的概率从a跳到b,其中a,b<1。
局部恒定处理效应:在x的一个邻域内满足 β i = β \beta_i=\beta βi=β。
假设具有局部连续性:
l
i
m
X
→
x
+
E
(
y
i
∣
x
)
−
l
i
m
X
→
x
−
E
(
y
i
∣
x
)
=
[
l
i
m
X
→
x
+
E
(
β
i
D
i
∣
x
)
+
l
i
m
X
→
x
+
E
(
u
i
∣
x
)
]
−
[
l
i
m
X
→
x
−
E
(
β
i
D
i
∣
x
)
+
l
i
m
X
→
x
−
E
(
u
i
∣
x
)
]
=
β
[
l
i
m
X
→
x
+
E
(
D
i
∣
x
)
−
l
i
m
X
→
x
−
E
(
D
i
∣
x
)
]
lim_{X\rightarrow x^+}E(y_i|x)-lim_{X\rightarrow x^-}E(y_i|x)\\=[lim_{X\rightarrow x^+}E(\beta_iD_i|x)+lim_{X\rightarrow x^+}E(u_i|x)]-[lim_{X\rightarrow x^-}E(\beta_iD_i|x)+lim_{X\rightarrow x^-}E(u_i|x)]\\=\beta[lim_{X\rightarrow x^+}E(D_i|x)-lim_{X\rightarrow x^-}E(D_i|x)]
limX→x+E(yi∣x)−limX→x−E(yi∣x)=[limX→x+E(βiDi∣x)+limX→x+E(ui∣x)]−[limX→x−E(βiDi∣x)+limX→x−E(ui∣x)]=β[limX→x+E(Di∣x)−limX→x−E(Di∣x)]
一般处理效应被定义为
l
i
m
X
→
x
+
E
(
y
i
∣
x
)
−
l
i
m
X
→
x
−
E
(
y
i
∣
x
)
l
i
m
X
→
x
+
E
(
D
i
∣
x
)
−
l
i
m
X
→
x
−
E
(
D
i
∣
x
)
\frac{lim_{X\rightarrow x^+}E(y_i|x)-lim_{X\rightarrow x^-}E(y_i|x)}{lim_{X\rightarrow x^+}E(D_i|x)-lim_{X\rightarrow x^-}E(D_i|x)}
limX→x+E(Di∣x)−limX→x−E(Di∣x)limX→x+E(yi∣x)−limX→x−E(yi∣x)
对于异质处理效应——我们必须假设局部条件独立性,这要求D与x附近的X上的
β
i
\beta_i
βi 条件无关。
平均处理效应也被定义为
l
i
m
X
→
x
+
E
(
y
i
∣
x
)
−
l
i
m
X
→
x
−
E
(
y
i
∣
x
)
l
i
m
X
→
x
+
E
(
D
i
∣
x
)
−
l
i
m
X
→
x
−
E
(
D
i
∣
x
)
\frac{lim_{X\rightarrow x^+}E(y_i|x)-lim_{X\rightarrow x^-}E(y_i|x)}{lim_{X\rightarrow x^+}E(D_i|x)-lim_{X\rightarrow x^-}E(D_i|x)}
limX→x+E(Di∣x)−limX→x−E(Di∣x)limX→x+E(yi∣x)−limX→x−E(yi∣x)
考虑到分配规则D(x)是一个确定性函数的情况,我们仍然需要假设:处理的不连续性、局部连续性
- ( β i , D i ( x ) ) (\beta_i,D_i(x)) (βi,Di(x)) 在x的附近联合独立于X
- 存在 ε < 0 , D i ( x + δ ) ≥ D i ( x − δ ) , ∀ 0 < δ < ε \varepsilon<0,D_i(x+\delta)\geq D_i(x-\delta),\forall0<\delta<\varepsilon ε<0,Di(x+δ)≥Di(x−δ),∀0<δ<ε
局部平均处理效应(LATE): l i m δ → 0 E ( β i ∣ D i ( x + δ ) − D i ( x − δ ) = 1 ) lim_{\delta\rightarrow0}E(\beta_i|D_i(x+\delta)-D_i(x-\delta)=1) limδ→0E(βi∣Di(x+δ)−Di(x−δ)=1)
RDD的实施
当我们认为有一个RDD时,我们应该做的第一件事是一个图形分析:被解释变量y与解释变量x之间的曲线图。
有时,如果涉及异质性,它可能是协变量结果回归的残差。
注意具有不连续性的非线性关系。解决方案:多项式估计或非参数回归。
确保条件期望在截止点上没有可比的跳跃。如果是这样,它不会使RDD无效,但确实需要一个解释。对解释变量重复协变量的图,看看是否存在不连续,如果是这样,可能会对我们的识别构成威胁,我们必须解释不连续。
密度测试: 检查赋值变量的观测密度,以查看赋值变量的密度是否不连续
参数估计: 对于清晰断点回归,我们有
y
i
=
m
(
x
i
)
+
δ
D
i
+
ε
i
y_i=m(x_i)+\delta D_i+\varepsilon_i
yi=m(xi)+δDi+εi
其中局部连续性表示
m
(
x
i
)
m(x_i)
m(xi) 在x处是X的连续函数。
δ
\delta
δ 是在x时的平均处理效应。
如果已知 m ( x i ) m(x_i) m(xi),则: δ O L S ~ = E ( β i ∣ x ) \tilde{\delta_{OLS}}=E(\beta_i|x) δOLS~=E(βi∣x),但多数情况无法得知,不过我们有灵活的函数形式。
对于模糊断点回归,存在一个选择问题,我们可以用
E
(
D
i
∣
X
)
E(D_i|X)
E(Di∣X) 代替
D
i
D_i
Di。假设
D
i
D_i
Di 和
β
i
\beta_i
βi 在X的条件下局部独立,有:
y
i
=
m
(
x
i
)
+
δ
E
(
D
i
∣
x
i
)
+
ε
i
y_i=m(x_i)+\delta E(D_i|x_i)+\varepsilon_i
yi=m(xi)+δE(Di∣xi)+εi
局部连续性意味着
m
(
x
i
)
m(x_i)
m(xi) 在x处是连续的,同时
E
(
D
i
∣
x
i
)
E(D_i|x_i)
E(Di∣xi) 在x处不连续,
δ
\delta
δ 度量:
l
i
m
X
→
x
+
E
(
y
i
∣
x
)
−
l
i
m
X
→
x
−
E
(
y
i
∣
x
)
l
i
m
X
→
x
+
E
(
D
i
∣
x
)
−
l
i
m
X
→
x
−
E
(
D
i
∣
x
)
\frac{lim_{X\rightarrow x^+}E(y_i|x)-lim_{X\rightarrow x^-}E(y_i|x)}{lim_{X\rightarrow x^+}E(D_i|x)-lim_{X\rightarrow x^-}E(D_i|x)}
limX→x+E(Di∣x)−limX→x−E(Di∣x)limX→x+E(yi∣x)−limX→x−E(yi∣x)
如果我们用局部单调性代替独立性,那么
δ
\delta
δ 是一个LATE。
估计实现:两阶段程序:
-
第一步:模糊RDD中的估计处理或选择规则如下:
D i = E ( D i ∣ x i ) + v i = f ( x i ) + γ I ( x i ≥ x ) + v i D_i=E(D_i|x_i)+v_i=f(x_i)+\gamma I(x_i\geq x)+v_i Di=E(Di∣xi)+vi=f(xi)+γI(xi≥x)+vi
其中 f ( ⋅ ) f(·) f(⋅) 是x的连续函数。 γ \gamma γ 估计了在x处的倾向分数函数的不连续性。、 -
用第一阶段的估计: E ( D i ∣ x ) = P r ( D i = 1 ∣ x i ) E(D_i|x)=Pr(D_i=1|x_i) E(Di∣x)=Pr(Di=1∣xi) 替换
y i = m ( x i ) + δ E ( D i ∣ x i ) + ε i y_i=m(x_i)+\delta E(D_i|x_i)+\varepsilon_i yi=m(xi)+δE(Di∣xi)+εi
如果正确地指定了f和m,那么 δ \delta δ 的估计是一致的。
如果f和m有相同的函数形式,那么这是用 I ( x i ≥ x ) I(x_i\geq x) I(xi≥x) 和 m ( x ) m(x) m(x) 为工具变量的2SLS。