断点回归RDD：样本少时如何做？_断点回归最少多少个样本-CSDN博客

编译：李琼琼 (山东大学)
Email: lqqflora@163.com

Source: Cattaneo, Matias, D, et al. Inference in regression discontinuity designs under local randomization[J]. The stata journal, 2016.

文章目录

连享会计量方法专题……

1.背景

断点回归被认为是局部的随机实验，因此随机推断的方法也可以适用于断点回归，但原则上需要使用断点 (cutoff) 附近的观测值。另一方面，经典的断点回归需要较大的样本量，因为无论是参数估计还是非参数估计，均要求分配变量的密度在断点处是连续的，并且做非参数估计时，使用局部多项式做非参数统计推断，也依靠了大样本渐进理论。这就导致了如果带宽过小或者数据集本身就不大，平滑性检验通不过或者估计效果会变得不好的问题。

为了解决样本量有限的问题，美国普林斯顿大学的 Cattano 教授及其合作者于 2016 年开发了一套 rdlocrand Stata 命令包，运用了随机实验的方法来解决有效样本量 (带宽内的样本数量) 过少的问题。

rdlocrand package 包含了四个命令，本文结合 Cattaneo et al. (2015，[PDF]) 关于美国 1994-2010 年参议院选举的样本数据对这四个命令及其功能进行介绍。

准备：安装需要使用的命令包

ssc install st0435.pkg,from (http://www.stata-journal.com/software/sj16-2/)

2. 有限样本的断点回归

2.1 RDD 适用性检验和最优带宽的选择

Note: Cattaneo et al. (2015) 使用的参议院选举数据和 David S. Lee (2007，[PDF])使用选举数据在样本的时间段和变量选择上有区别，另外对"在位优势"的定义也不同，David S. Lee 认为 t 期胜出选票的份额对 t+1 期的选举结果有正向影响说明存在"在位优势"，而 Cattaneo et al. 则把 “在位优势” 定义为 t 期对 t+2 期的影响。

rdwinselect 命令有两个作用，(1) 利用前定变量(除配置变量以外的其他解释变量) 做 RDD 适用性检验; (2) 在适用性条件被满足的前提下，挑选最优带宽，适用于有限样本和大样本。基本的语法格式如下：

 rdwinselect runvar [covariates] [if] [in],  [, options]

其中，主要选项为：

runvar: 分配变量
covariates: 协变量
cutoff(): 分配变量临界值, 默认为 c(0)
obsmin(): 设定左、右带宽包括最少的观测值的个数
wmin(): 设定模型带宽长度的最小临界值
wstep: 设定模型每次带宽增加的长度
nwindows: 设定带宽的个数
approximate: 使用大样本渐进理论，默认基于随机推断
p(): 结果变量修正模型的阶数，默认 p(0)
plot: 画出协变量检验的最小 p 值图
reps(): 随机试验重复的次数，默认 reps(1000)

命令的使用

.sysuse rdlocrand_senate, clear //调用数据
.global covariates presdemvoteshlag1 population demvoteshlag1 demvoteshlag2 ///
.demwinprv1 demwinprv2 dopen dmidterm     //把分配变量以外的所有解释变量设为全局变量 covariates
.rdwinselect demmv $covariates, cutoff(0) //为RD回归选择带宽， demmv是分配变量，代表民主党超过最大对手党派的投票份额（单位：%）

*----------使用 rdwinselect 命令 table1 ----------------------
Window selection for RD under local randomization


Cutoff c = 0.00   | Left of c   Right of c        Number of obs  =          1390
------------------+-----------------------        Order of poly  =             0
    Number of obs |       640          750        Kernel type    =       uniform
   1st percentile |         6            7        Reps           =          1000
   5th percentile |        32           37        Testing method =     rdrandinf
  10th percentile |        64           75        Balance test   =         ttest
  20th percentile |       128          150


                  |   Bal. test         Var. name    Bin. test
 Window length /2 |    p-value        (m