在断点回归(RDD)中,通常通过检验基线协变量的均值是否在断点处没有变化来检验可靠性,但这种方法意味着基线协变量在断点处必须具有连续性,这种连续性假设基本无法检验。另一方面,尽管观测的总样本数可能很大,但断点附近的有效观测值的数量可能很小,随着n→∞,RDD中的传统渐近需要越来越多的局部观测值。
根据以上问题,本文介绍了一种基于伴随次序统计量(Induced Order Statistics)的「置换检验」,用于对基线协变量在截止点处分布的连续性的零假设;并引入了一种新的「渐近框架」来分析其性质,使得在样本量n→∞时保持局部观测值Q为固定值。
0.安装rdcont、rdpermute指令
ssc install rdcont
ssc install rdpermute
置换检验包括随机版本The randomized version(Raper)和非随机版本The non-randomized version(Per),后者更加常用,因此rdcont中使用的是非随机版本。
1.置换检验
断点回归(RDD)近年来被广泛用于因果效应的研究,比如Lee和Lemieux(2010)的论文中关于执政党地位有助于其再次赢得竞选的研究,Chen Yuyu et al.(2013)的关于淮河以北的空气污染会降低北方人平均5.5年的预期寿命的研究等。它能够避免内生性问题,不需要控制太多变量,并且不需要从大样本中严格抽取,可以很好地反应因果关系。
当观测的协变量(运行变量)越过断点时,个体归为接受处理的处理组,否则归为不受处理的控制组。如果可以看到断点左右有显著的差距存在,那么就说明处理产生了影响。但这个推论基于一个重要的连续性假设,如果被解释变量本身就是不连续的,那么不管有没有处理都会有一个明显的跳跃。因此,要检验RDD的有效性,检验协变量在断点处的连续性就非常重要,遗憾的是,连续性假设基本是无法检验的。
然而,实证研究可以通过Lee(2008)提出的两种推论来检验RDD的有效性,分别为:
1.个体对于运行变量的控制不精确,即运行变量的密度在断点处连续;
2.处理在断点处局部随机,即基线协变量的分布在断点处连续。
对于第二个,研究人员通常通过验证基线协变量的均值的连续性来检验。Canay和Kamat(2018)则提出了新的置换检验方法,它基于这样的直觉:当原假设(即协变量在断点处连续)成立时,断点附近的观测值在断点的任意一侧近似(但不完全)同分布,这使我们可以通过排列这些观察结果,来构造一个近似的有效性检验,我们称之为「近似置换检验」。
具体步骤如下: