作者:姚耀军
根据文献计量分析,大约在2000年以后,“自然实验”突然成为了社会科学界的流行词。自然实验描述的是这样一个研究过程:某个外生事件的发生导致了近似于真正科学实验的场景,而细心的研究人员能够发现这一场景,并借此来识别社会科学中的因果关系。
自然实验与科学研究中的现场实验一样,发生在实验室之外的真实的社会环境中。因此,后者是理解自然实验的一个良好起点。本文对自然实验与现场实验进行比较分析,以揭示两种研究方法的异同,帮助大家更好地理解自然实验方法以及DID模型背后的逻辑。
一、现场实验案例
假设有很多面积基本相等的小块农田分布在一条河流的南北两岸,田里刚种植了水稻。一位研究者试图针对这些农田里的水稻开展现场实验,研究灌溉量对水稻产量的影响。那么,他该怎样设计实验呢?概括起来,其基本步骤是:
首先,随机分配被试(农田)至对照组与处理组。具体来说,研究者会将两岸每块农田进行编号,并将这些编号随机分成两组:在第一组(即对照组),编号所对应的农田保持正常状态,研究者不会对其作任何处理;在第二组(即处理组),编号所对应的农田须按照研究者的要求,在夏季接受额外的灌溉处理。然后,到了秋天收获的季节,研究者将比较两组平均产量的差异。
若对照组与处理组除了一组未接受处理而另一组接受了处理,在其他所有方面(例如土壤的肥力等)不存在系统性的差异,则研究者有理由把两组平均产量的差异归因于是否接受了“处理”,从而识别出额外灌溉对水稻产量的影响(即处理效应)。那么,现在关键的问题是,在其他所有方面,两组是否真的不存在系统性的差异?
答案是肯定的,原因在于研究者已经将南北两岸的每一块农田都随机分配至两组。随机分配的结果是,每一组既有南岸的农田,也有北岸的农田。即使在土壤肥力等方面,南北两岸的农田间可能存在系统性差异(例如,南岸农田可能更肥沃),而同岸的农田间也可能存在其他个体差异,但由于是随机分配,这些差异均不会导致对照组与处理组之间出现系统性的差异。
当然,无系统性差异并不意味着无差异,只是意味着若存在差异,则这种差异具有偶然性,属于所谓的抽样误差。正是由于抽样误差的存在,在比较两组平均产量差异时,研究者有必要进行统计显著性检验,以免将本应归因于抽样误差的平均产量差异误认为处理效应。
二、自然实验案例
仍假设有很多面积基本相等的小块农田分布在一条河流的南北两