Heckman两阶段模型解决的是样本选择偏差(sample selection bias)的问题。我们主要从两个方面进行讲述Heckman两阶段法,最后简要介绍一下Heckman老爷子。
1. 何为样本选择偏差
样本选择偏差指的是在回归方程中估计出的参数是基于那些被选择进样本了的数据点(或者说是能够观测得到的数据点)而估计出来的,那么如果说一个数据点(观测值)是不是被选择进样本是一个外生的、纯随机的事件,那么据此得出的参数并不会有偏差(bias)——这个估计结果就不会有问题。但是事实上我们是无法避免掉内生性的,也就是说我们无法进行完全随机的抽样。
那么既然如此,就导致了样本选择偏差。比如说,Wooldridge 教材中的一个经典例子中:研究者试图估计出受教育程度以及工作经验对于女职工工资的影响。在一个753名女性的大样本中,428名女性是有工作的,所以这项研究只能在这428名有工作(有收入)的样本中展开。那么问题来了:因为我们无法观测到那325个没有工作的样本中受教育程度以及经验对于收入的影响,并且一个人选择工作或不工作并非是随机的——人们会根据潜在的收入水平、自身条件、家庭情况、年龄等等因素综合来决定是否参加工作,于是,我们仅从那428个有工作的人身上找出的统计学结果将是有偏差的,因为样本的选择并非随机及外生的。
更为具体的分析,样本选择偏差包括两种&#x