PSM的定义
在医疗、经济、金融学等领域中,当某项公共政策实施后,我们通常希望通过一些方法去评估该项政策产生的影响,即政策的作用及效应,以更好的指导政策实施,服务于公共决策。比如研究某个劳动者接受某种高等教育或技能培训对其收入的影响,又比如研究某个企业实施了某项激励制度后对企业绩效的影响等。通常情况下,我们会将政策实施对象的 "处理组" 和 "控制组" 进行对比,以期评估该项政策的处理效应(Treatment effect)。但是,对于社会科学来说,我们很难设立随机分组实验,我们更多的是靠观察和准实验来研究,从而我们的数据通常都来自于非随机的现象观察。但是由于选择性偏差(Selection bias)和反事实框架(a counterfactualframework)的存在,我们直接评估政策效果可能存在一定的偏误。
1、何为选择偏差 ( Selection bias)。处理组和控制组的初始条件不完全相同,故存在选择偏差 ( Selection bias)问题。在这种情况下,我们只观察到了对象A因为发生了某一事件后所表现的现象,并且拿这种现象去和另一些没有发生这一事件的对象B进行对比,这显然是不科学的,因为A、B比较的基础并不相同。
2、何为反事实框架(a counterfactual framework)。Rubin于1974年提出了反事实框架:
The main challenge of an impact evaluation is to determine what would have happened to the beneficiaries if the program had not existed. That is, one has to determine the per capita household income of beneficiaries in the absence of the intervention. A beneficiary's outcome in the absence of the intervention would be it's counterfactual. (world bank,P22)
如何解决Selection bias和Counterfactual?这里,以自身为例,假如我想知道读研究生会对我的收入产生怎样的影响。可是,我现在已经读了研究生,那要怎样才能估计出读不读研究生对我收入产生的影响呢?于是,我们引入今日探讨的主题:倾向得分匹配法(Propensity Score Matching,PSM)。该方法能使用倾向得分函数将多维向量的信息压缩成一维,然后根据倾向得分进行匹配。这可以在既定的可观测特征变量下,使得处理组个体和控制组个体尽可能相似,从而缓解处理效应的选择偏差问题。也就是说,该方法能通过对我们每个人读研究生的概率进行估计,然后从一堆没有读研究生的人群中(即我们的总体样本的一个小的子集)选出和我具有非常相似的读研究生的概率,同时,将没有去读的同学李华(是不是很熟悉,考研作文常见的人物)——作为我的对照,然后再来看我们之间的区别。当样本中的所有研究生“我”都找到了与之相匹配的非研究生“李华”,我们便能对这两组样本进行“公平”的比较了。
PSM的原理
对于一个个体,根据是否进行某项处理可以分为两种结果:若其接受处理(Di=1),则其结果yi=y1i;若其未接受处理(Di=0),则其结果yi=y0i。在给定可观测特征变量xi的情况下,个体i进入处理组的条件概率为:p(xi)=Pr(Di=1| x=xi)=E(Di | xi),从而可以得到其平均处理效应为:
PSM的前提假设
The validity of PSM depends on two or three conditions: (1) Conditional independence (namely, that unobserved factors do not affect participation); (2)