匹配估计的思想:假如你要研究企业的R&D投入对performance的影响,匹配思想是这样的:假如有两家企业,其R&D投入明显不同,但是其他各方面都高度相同,例如公司规模,杠杆率,所属行业,公司治理结构等,那么在其他各方面都高度相同的情况下,这时就可以把公司performance的差异归因到R&D投入的差异。这种找到一个控制组的个体,使得该个体与处理组的个体在除自变量外其他各因素都相似(也就是匹配),在通过自变量的差异解释因变量差异的行为,就是匹配的思想。
一般来说,每个样本有多个属性,例如一家公司,属性有公司规模,公司年龄,杠杆率,增长率,市场占有率,治理结构相关变量,行业等,这就意味着匹配时要考虑诸多属性,也就是进行高维度匹配。一个比较好的思路是定义高维空间的距离,然后计算两个样本在高维空间的距离。
倾向得分的定义是一个个体进入处理组的概率,为什么要引入这个概念?因为如果针对多个可观察特征X进行对比匹配非常困难,所以,可将多维协变量X用一个一维变量——倾向得分P(x)来代替,这样,研究者就只需要对单一的倾向得分变量进行匹配,从而大大减少了匹配的困难。这个方法最早由Rosenbaum and Rubin(1983)提出。
PSM在stata的实现过程。
首先,如果自变量是连续变量,需要转换为二元离散变量,比如自变量是企业R&D投入,你需要找到一个临界值,把R&D投入分为高R&D投入组和低R&D投入组,临界值包括:平均数&