这个方法的难点在于:
首先,要明白反事实框架是一个什么样的东西?为什么一般把参与项目和不参与项目进行对比时会出现选择偏误?
其次,搞清楚上面的原理之后,PSM真正难的是找到合适的协变量和完成两个苛刻的检验(共同支撑检验和平衡性检验)
这篇文章我想达到哪些学习目标:
(1)尽量汇集我看过的有用的资料
(2)展示一个PSM分析的理论框架
(3)针对难点说一下模型的调整问题(协变量选择、两个检验的调整)
主要框架:
1.理论 2.操作 3.案例 4.辨析 5.参考资料
1.问题的产生
1.1 大背景:因果推断与识别策略
计量经济学的“可信性革命”——从统计推断到因果推断的研究范式转变。
大多数的计量实证,集中于统计推断,即如何利用样本信息获得总体信息的估计以及如何进行假设检验以判断估计结果的统计显著性.
但越来越多的实证研究开始识别经济变量之间的因果关系。
“可信性革命”的关键特征是利用潜在结果框架清晰定义因果,利用随机化实验的思想作为因果效应识别的基础,
而,PSM就是识别策略之一。
1.2 小背景:匹配的原理
书面解释:在估计因果效应的时候,我们面临着因果推断的基本问题( Holland,1986),只能观察到一种干预状态下的结果,无法观察到其他干预状态下的结果.匹配方法的基本思想就是对于干预组个体,在控制组中寻找特征相似的控制组个体与其相匹配,从而用控制组个体的结果来估计干预组个体的反事实结果.ATT就是因果效应(PS:具体的公式表达很多资料都讲了,这里不再赘述)。
通俗解释:这个例子来自于连玉君老师。现在研究“读北大(X变量)有助于提高收入(Y变量)吗?”这个问题。
针对既定样本,存在一个自我选择偏误的问题:考上北大的孩子本身就很出色(聪明,有毅力,能力强...),并不是因为他们读了北大才收入高。
但是怎么办呢?在社会经济学中,无法像自然科学那样设置自然实验(对照组和实验组),这个人考上北大了(既定事实),我们就无法观察得到他不上北大(反事实)会是怎么样的?
所以,用PSM的思路,就是把能够上北大(处理组)的同学的个体特征进行分解,在不上北大(控制组)的同学中找到跟处理组个体的特征差不多的样本,再进行比较。比如:两个人高考成绩考得分数都