金融计量模型（五）：RDD（断点回归）

最新推荐文章于 2025-04-12 14:16:25 发布

梅九九

最新推荐文章于 2025-04-12 14:16:25 发布

阅读量8.5k

点赞数 4

分类专栏：金融计量模型

本文链接：https://blog.csdn.net/qq_52737544/article/details/115469336

版权

金融计量模型专栏收录该内容

11 篇文章

订阅专栏

本文探讨了RDD（断点回归）中的清晰断点（SharpRDD）与模糊断点（FurryRDD）概念，包括它们的假设、关键区别和应用。讲解了如何通过图形分析、密度测试和参数估计来识别和处理处理效应。最后，介绍了RDD的实施步骤，包括两阶段估计方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

RDD（断点回归）

RDD（断点回归）

如果知道确定人员/公司的哪一部分是处理组的分配规则，就有机会应用RDD来识别因果关系。
$y=\delta D+X\beta +\varepsilon\\D=\begin{cases}1\ \ \ S\geq \bar{S}\\0\ \ \ S< \bar{S}\end{cases}$
假设 $t r e a t m e n t$ 是二值变量， $D=1\ or\ D=0,Y_i$ 是person i 的收入。

潜在结果 $Y_i^0$ ：当D=0时。潜在结果 $Y_i^1$ ：当D=1时。如果我们知道了以上两者，就可以得到对person i 的因果效应/处理效应： $Y_i^1-Y_i^0$ 。

平均因果效应/平均处理效应： $ATE=E[Y^1-Y^0]$ 。

清晰断点回归（Sharp RDD）

分组变量：清晰（Sharp）是指仅根据观察到的连续变量的截止值来分配或选择进行处理的样本。

阈值：赋值变量值低于截止值x的在控制组（对照组），D=0；高于截止值x的在处理组（实验组），D=1。

关键假设：

分配通过一个已知的和被测量的确定性决策规则发生， $D=D(X)=I(X\geq x)$ 。关注的变量X在截止值x附近有一个正密度。
分配概率在截止值x从0跳到1。

问题在于，分配变量可能与结果变量相关。在比较处理组和控制组的平均值时，D对y的影响可能会被X混淆。

解决办法：

在方程右边包括进X，假设以线性的形式
使用匹配方法：需要两个假设
1. 不混淆：u独立于X条件下的D
2. 0<Pr(D=1|x)<1，对所有x成立；但这违反了清晰断点回归的假设2
局部连续性

$E(u_i|x)、E(\beta_i|x)$ 对于 $X$ 而言在 $x$ 处连续，等价于： $E(y_i|D_i=1,x)、E(y_i|D_i=0,x)$ 对于 $X$ 而言在 $x$ 处连续。接近阈值x且x值相似的人是可比较的（截止值x以上及以下）。

总结所有假设，我们得到：
$lim_{X\rightarrow x^+}E(y_i|x)-lim_{X\rightarrow x^-}E(y_i|x)=[lim_{X\rightarrow x^+}E(\beta_iD_i|x)+lim_{X\rightarrow x^+}E(u_i|x)]-[lim_{X\rightarrow x^-}E(\beta_iD_i|x)+lim_{X\rightarrow x^-}E(u_i|x)]\\=E(\beta_i|x)$
比较截止值以上和以下的平均结果可以确定接近截止值的样本的ATE。

事实上，如果没有共同效应假设 $\beta_i=\beta$ ，我们只能得到接近截止点的样本的处理效果，局部效应在离阈值远的地方可能变化很大。

模糊断点回归（Furry RDD）

在模糊断点回归中，处理分配随机的由x决定，但倾向得分函数 $P r (D = 1 ∣ X)$ 在x处有已知的不连续性。模糊断点回归中：
$0<lim_{X\rightarrow x^+}Pr(D=1|X)-lim_{X\rightarrow x^-}Pr(D=1|X)<1$
模糊断点回归与清晰断点回归之间的关键区别在于，在模糊RDD中，分配的概率从a跳到b，其中a,b<1。

局部恒定处理效应：在x的一个邻域内满足 $\beta_i=\beta$ 。

假设具有局部连续性：
$lim_{X\rightarrow x^+}E(y_i|x)-lim_{X\rightarrow x^-}E(y_i|x)\\=[lim_{X\rightarrow x^+}E(\beta_iD_i|x)+lim_{X\rightarrow x^+}E(u_i|x)]-[lim_{X\rightarrow x^-}E(\beta_iD_i|x)+lim_{X\rightarrow x^-}E(u_i|x)]\\=\beta[lim_{X\rightarrow x^+}E(D_i|x)-lim_{X\rightarrow x^-}E(D_i|x)]$
一般处理效应被定义为
$\frac{lim_{X\rightarrow x^+}E(y_i|x)-lim_{X\rightarrow x^-}E(y_i|x)}{lim_{X\rightarrow x^+}E(D_i|x)-lim_{X\rightarrow x^-}E(D_i|x)}$
对于异质处理效应——我们必须假设局部条件独立性，这要求D与x附近的X上的 $\beta_i$ 条件无关。

平均处理效应也被定义为
$\frac{lim_{X\rightarrow x^+}E(y_i|x)-lim_{X\rightarrow x^-}E(y_i|x)}{lim_{X\rightarrow x^+}E(D_i|x)-lim_{X\rightarrow x^-}E(D_i|x)}$
考虑到分配规则D(x)是一个确定性函数的情况，我们仍然需要假设：处理的不连续性、局部连续性

$(\beta_i,D_i(x))$ 在x的附近联合独立于X
存在 $\varepsilon<0,D_i(x+\delta)\geq D_i(x-\delta),\forall0<\delta<\varepsilon$

局部平均处理效应（LATE）： $lim_{\delta\rightarrow0}E(\beta_i|D_i(x+\delta)-D_i(x-\delta)=1)$

RDD的实施

当我们认为有一个RDD时，我们应该做的第一件事是一个图形分析：被解释变量y与解释变量x之间的曲线图。

有时，如果涉及异质性，它可能是协变量结果回归的残差。

注意具有不连续性的非线性关系。解决方案：多项式估计或非参数回归。

确保条件期望在截止点上没有可比的跳跃。如果是这样，它不会使RDD无效，但确实需要一个解释。对解释变量重复协变量的图，看看是否存在不连续，如果是这样，可能会对我们的识别构成威胁，我们必须解释不连续。

密度测试： 检查赋值变量的观测密度，以查看赋值变量的密度是否不连续

参数估计： 对于清晰断点回归，我们有
$y_i=m(x_i)+\delta D_i+\varepsilon_i$
其中局部连续性表示 $m(x_i)$ 在x处是X的连续函数。 $\delta$ 是在x时的平均处理效应。

如果已知 $m(x_i)$ ，则： $\tilde{\delta_{OLS}}=E(\beta_i|x)$ ，但多数情况无法得知，不过我们有灵活的函数形式。

对于模糊断点回归，存在一个选择问题，我们可以用 $E(D_i|X)$ 代替 $D_i$ 。假设 $D_i$ 和 $\beta_i$ 在X的条件下局部独立，有：
$y_i=m(x_i)+\delta E(D_i|x_i)+\varepsilon_i$
局部连续性意味着 $m(x_i)$ 在x处是连续的，同时 $E(D_i|x_i)$ 在x处不连续， $\delta$ 度量：
$\frac{lim_{X\rightarrow x^+}E(y_i|x)-lim_{X\rightarrow x^-}E(y_i|x)}{lim_{X\rightarrow x^+}E(D_i|x)-lim_{X\rightarrow x^-}E(D_i|x)}$
如果我们用局部单调性代替独立性，那么 $\delta$ 是一个LATE。

估计实现：两阶段程序：

第一步：模糊RDD中的估计处理或选择规则如下：
$D_i=E(D_i|x_i)+v_i=f(x_i)+\gamma I(x_i\geq x)+v_i$
其中 $f (\cdot)$ 是x的连续函数。 $\gamma$ 估计了在x处的倾向分数函数的不连续性。、
用第一阶段的估计： $E(D_i|x)=Pr(D_i=1|x_i)$ 替换
$y_i=m(x_i)+\delta E(D_i|x_i)+\varepsilon_i$