编译:李琼琼 (山东大学)
Email: lqqflora@163.com
连享会计量方法专题……
1.背景
断点回归被认为是局部的随机实验,因此随机推断的方法也可以适用于断点回归,但原则上需要使用断点 (cutoff) 附近的观测值。另一方面,经典的断点回归需要较大的样本量,因为无论是参数估计还是非参数估计,均要求分配变量的密度在断点处是连续的,并且做非参数估计时,使用局部多项式做非参数统计推断,也依靠了大样本渐进理论。这就导致了如果带宽过小或者数据集本身就不大,平滑性检验通不过或者估计效果会变得不好的问题。
为了解决样本量有限的问题,美国普林斯顿大学的 Cattano 教授及其合作者于 2016 年开发了一套 rdlocrand Stata 命令包,运用了随机实验的方法来解决有效样本量 (带宽内的样本数量) 过少的问题。
rdlocrand package 包含了四个命令,本文结合 Cattaneo et al. (2015,[PDF]) 关于美国 1994-2010 年参议院选举的样本数据对这四个命令及其功能进行介绍。
准备 :安装需要使用的命令包
ssc install st0435.pkg,from (http://www.stata-journal.com/software/sj16-2/)
2. 有限样本的断点回归
2.1 RDD 适用性检验和最优带宽的选择
Note: Cattaneo et al. (2015) 使用的参议院选举数据和 David S. Lee (2007,[PDF])使用选举数据在样本的时间段和变量选择上有区别,另外对"在位优势"的定义也不同,David S. Lee 认为 t 期胜出选票的份额对 t+1 期的选举结果有正向影响说明存在"在位优势",而 Cattaneo et al. 则把 “在位优势” 定义为 t 期对 t+2 期的影响。
rdwinselect
命令有两个作用,(1) 利用前定变量(除配置变量以外的其他解释变量) 做 RDD 适用性检验; (2) 在适用性条件被满足的前提下,挑选最优带宽,适用于有限样本和大样本。基本的语法格式如下:
rdwinselect runvar [covariates] [if] [in], [, options]
其中,主要选项为:
runvar
: 分配变量covariates
: 协变量cutoff()
: 分配变量临界值, 默认为 c(0)obsmin()
: 设定左、右带宽包括最少的观测值的个数wmin()
: 设定模型带宽长度的最小临界值wstep
: 设定模型每次带宽增加的长度nwindows
: 设定带宽的个数approximate
: 使用大样本渐进理论,默认基于随机推断p()
: 结果变量修正模型的阶数,默认 p(0)plot
: 画出协变量检验的最小 p 值图reps()
: 随机试验重复的次数,默认 reps(1000)
命令的使用
.sysuse rdlocrand_senate, clear //调用数据
.global covariates presdemvoteshlag1 population demvoteshlag1 demvoteshlag2 ///
.demwinprv1 demwinprv2 dopen dmidterm //把分配变量以外的所有解释变量设为全局变量 covariates
.rdwinselect demmv $covariates, cutoff(0) //为RD回归选择带宽, demmv是分配变量,代表民主党超过最大对手党派的投票份额(单位:%)
*----------使用 rdwinselect 命令 table1 ----------------------
Window selection for RD under local randomization
Cutoff c = 0.00 | Left of c Right of c Number of obs = 1390
------------------+----------------------- Order of poly = 0
Number of obs | 640 750 Kernel type = uniform
1st percentile | 6 7 Reps = 1000
5th percentile | 32 37 Testing method = rdrandinf
10th percentile | 64 75 Balance test = ttest
20th percentile | 128 150
| Bal. test Var. name Bin. test
Window length /2 | p-value (m