PSM+DID

最新推荐文章于 2024-10-30 13:27:26 发布

celine0227

最新推荐文章于 2024-10-30 13:27:26 发布

阅读量4.2w

点赞数 38

分类专栏：公司金融文章标签：其他

本文链接：https://blog.csdn.net/celine0227/article/details/121061453

版权

公司金融专栏收录该内容

14 篇文章

订阅专栏

PSM-DID 模型是由倾向得分匹配模型 (Propensity Score Matching，以下简称 PSM) 和双重差分模型 (Differences-in-Differences，以下简称 DID) 结合而成。其中，PSM 负责为受处理的个体筛选对照个体，DID 负责识别政策冲击所产生的影响。

PSM 适用于截面数据，而 DID 适用于面板数据。针对二者适用范围不同的问题，学者们一般有两种解决方案：

一是将面板数据直接转化为截面数据进行处理；
二是在面板数据的每期截面上进行逐期匹配。

1. “自匹配” 问题

将面板数据直接转化为截面数据处理，会产生不同期样本匹配的问题，这使得最终的识别结果中掺杂了大量时间趋势信息。而且，匹配变量 x 越多，给予的约束越强，发生 “自匹配” 的概率就越大。

2. 逐期匹配的不足

如果选择逐期匹配的方案，即在每期截面上都进行一次匹配，虽较好地解决了样本不同期匹配的问题，但可能还会受到其他问题的困扰。

首先是特殊类变量的错配。特殊类变量 (x) 是指包含众多不可观测信息，在实际研究中需要对照组与处理组在该变量上保持相同的种类变量。比如研究产品质量时，需要保证处理组与其对照企业在行业上相同 (产品种类相同)。然而 PSM 模型采用估计的倾向得分值 p 做配对时，对照组中可能存在一个与 i 不同种类的个体l ，且l 与i 在 p 值上的间距小于s 类中所有个体，按照 “1:1 最近邻” 的匹配原则，l 便与 i 成功配对，尽管它们属于不同种类。

其次，当数据类型为非平衡面板数据时，逐期匹配会因数据缺失而产生一定的缺失偏误。例如如图 3 中 (a) 所示，最优的匹配对象是数据出现了缺失，因此识别结果中可能包含因数据缺失而造成的匹配偏误，且偏误随数据缺失程度的增加而增大。

此外，对照组的不稳定性 (处理组个体的匹配对象在冲击前后发生了变化) 也会产生部分匹配偏误。对照对象在冲击前后同样发生了较大改变。

3. 解决方法

如果 PSM 模型筛选所得的对照组兼具可比性和稳定性，则 PSM-DID 模型的识别结果将更加稳健可靠。

可以看出，改进方法中的关键点如下：

首先，匹配变量搜寻完毕后，还要从中判断是否存在特殊类变量 x ；
其次，在面板数据的每个截面上进行逐期回归，计算每个个体每一期的ps 值；
最后，对样本个体在ps 值序列间进行匹配。

据此，我们便可得到具有可比性和稳定性的对照组 (种类相同并且状况相似，且冲击前后为相同个体)，从而保证了 DID 模型分析的有效性。

4. stata代码

webuse nlswork  //使用系统自带数据库
xtset idcode year, delta(1)  //设置面板
xtdescribe   //描述一下这个面板数据情况

gen age2= age^2
gen ttl_exp2=ttl_exp^2
gen tenure2=tenure^2

global xlist "grade age age2 ttl_exp ttl_exp2 tenure tenure2 not_smsa south race"
sum ln_w $xlist  //统计描述相关变量

**DID方法
gen time = (year >= 77) & !missing(year)  //政策执行时间为1977年
gen treated = (idcode >2000)&!missing(idcode) //政策执行地方为idcode大于2000的地方
gen did = time*treated  //这就是需要估计的DID，也就所交叉项

reg ln_w did time treated $xlist //这就是一个OLS回归，也可以用diff命令
xtreg ln_w did time treated $xlist i.year, fe //也可以这去做，会省略掉一个虚拟变量

**PSM-DID方法
** PSM的部分
set seed 0001 //定义种子
gen tmp = runiform() //生成随机数
sort tmp //把数据库随机整理
psmatch2 treated $xlist, out(ln_w) logit ate neighbor(1) common caliper(.05) ties //通过近邻匹配，这里可以要outcome，也可以不要它
pstest $xlist, both graph  //检验协变量在处理组与控制组之间是否平衡
gen common=_support
drop if common == 0  //去掉不满足共同区域假定的观测值
*drop _weight ==0  //也有情况是把没有匹配的直接删除

** DID的部分，根据上面匹配好的数据
reg ln_w did time treated $xlist 
xtreg ln_w did time treated $xlist i.year, fe

DID方法需要满足的五个条件检验

**1.共同趋势假设检验

tab year, gen(yrdum) //产生year dummy，即每一年一个dummy变量

forval v=1/7{gen treated`v'=yrdum`v'*treated}                    

 //这个相当于产生了政策实行前的那些年份与处理虚拟变量的交互项

xtreg ln_w did treated*  i.year ,fe  //这个没有加控制变量

xtreg ln_w did treated* $xlist i.year ,fe //如果did依然显著，且treated*这些政策施行前年份交互项并不显著，那就好

xtreg ln_w did treated* $xlist i.year if union!=1 ,fe //我们认为工会会影响这个处理组和控制组的共同趋势，因此我们看看union=0的情形


**2.政策干预时间的随机性

gen time1 = (year >= 75) & !missing(year)  //政策执行时间提前到1975年
gen treated1= (idcode >2000)&!missing(idcode) //政策执行地方为idcode大于2000的地方
gen did1 = time1*treated1  //这就是需要估计的DID，也就所交叉项

gen time2 = (year >= 76) & !missing(year)  //政策执行时间提前到1976年
gen treated2= (idcode >2000)&!missing(idcode) //政策执行地方为idcode大于2000的地方
gen did2 = time2*treated2  //这就是需要估计的DID，也就所交叉项

xtreg ln_w did1 $xlist i.year,fe 
xtreg ln_w did2 $xlist i.year,fe //看看这两式子里did1和did2显著不


**3.控制组将不受到政策的影响

gen time = (year >= 77) & !missing(year)  
gen treated3= (idcode<1600 & idcode>1000)&!missing(idcode) //我们考虑一个并没有受政策影响地方假设其受到政策影响
gen did3 = time*treated3  
xtreg ln_w did3 $xlist i.year,fe //最好的情况是did3不显著，证明控制组不受政策影响


**4.政策实施的唯一性，至少证明这个政策才是主要影响因素

gen time = (year >= 77) & !missing(year)  
gen treated4= (idcode<3000 & idcode>2300)&!missing(idcode) //我们寻找某些受到其他政策影响的地方
gen did4 = time*treated4  
xtreg ln_w did4 $xlist i.year,fe //did4可能依然显著，但是系数变小，证明还受到其他政策影响


**5.控制组和政策影响组的分组是随机的

xi:xtivreg2 ln_w (did=hours tenure) $xlist i.year,fe first 

//用工具变量来替代政策变量，解决因为分组非随机导致的内生性问题

**附加的，一般而言，我们需要看看这个政策的动态影响

forval v=8/15{gen treated`v'=yrdum`v'*treat  }               

//注意，这里yrdum8就相当于year=78
reg  ln_w treated* 

xtreg  ln_w treated*, fe

xtreg ln_w treated* i.year,fe

xtreg ln_w treated* $xlist i.year,fe  //一般而言上面这些式子里的treated*应该至少部分显著