1. 导言
PSM
,即倾向值匹配法,是处理社会研究反事实问题,以得到因果效应的重要技术之一(胡安宁,2020)。
概而言之,即先将多维的混淆变量降维成单维的倾向值,然后让接受实验处理的个体与未接受实验处理的个体基于倾向值进行匹配。当倾向值相同时,如果是否接受实验处理与混淆变量无关,且与潜在结果也无关,那么因变量的组间差异就是处理效应的无偏估计值。
对 PSM 方法,一个广泛的疑问是,同样是为了考虑控制变量,为何要进行繁琐的 PSM 而不是直接用回归模型呢?哈丁(转引自胡安宁,2020:96)指出,PSM相较传统回归有四点优势:
- 作为非参数模型,不受传统线性模型设定方式的限制;
- 保证了实验组和对照组的可比性
- 估计的系数更少,更加有统计效率。
- 由于只需要关心倾向值的匹配从而在实验组和控制组之间达成平衡,因此不需要考虑例如多重共线之类的问题。
结合本学期所学,本文使用R的tidyverse
和MatchIt
两个程序包,对 lalonde 数据集进行分析:
library(haven)
library(tidyverse)
library(MatchIt)
通过与下面几种方式的估计值相比较,我将对 PSM 方法所发挥的作用进行简要分析
- 求均值差
- OLS回归分析
- 随机实验
本文对Yisi Li的博客 有所参考,在此说明。
2. 数据集
2.1 数据来源
Nationl Supported Work Demonstration (NSW)
是20世纪70年代在美国进行的一个项目。该项目会对缺少工作技能的弱势劳动者进行为期9-18个月的训练,从而帮助他们提升工作能力,改善他们在劳动市场中的不利地位。
与一般项目不同,它并未对所有符合条件的个体(e.g. 前“瘾君子”、前服刑人员和高中辍学者)都进行训练,而是随机将它们分成了两组,一组进行训练,另一组则不进行任何干预和帮助。我们可以分别称两组人为实验组
和对照组
。研究者搜集了它们的人口学特征,并且记录了它们在1974,1975,以及培训后的1978年的收入情况。
此数据集被 Lalonde(1986) 和其他培训调查的数据进行了合并,共构造了两份数据。
- 一份为
NSW
的原始数据,在R中,我们将其命名为Exp_data
(下载地址): 实验组
:对照组
:
Exp_data <- read_dta("nsw_dw.dta")[,-1] %>% as_tibble() # 读入数据
- 一份为
MatchIt
包自带数据,包含了Exp_data
内的实验组
和通过其他渠道获得的伪对照组
,这里的“伪”指非随机指派选定,但确实未接受过培训。在R中,我们将其命名为Obs_data
,换句话说,Obs_data
类似我们在抽样调查中得到的情况: 实验组
:伪对照组
:
Obs_data <- lalonde %>% as_tibble()
我们对这两部分数据进行的处理,从而使其变量形式和命名一致,便于后续分析:
# 让变量名统一
Obs_data <- Obs_data[-4]
colnames(Exp_data) <- c("treat", "age", "educ", "black", "hispanic", "married", "nodegree", "