合成控制法 (Synthetic Control Method) 及 Stata实现

最新推荐文章于 2024-08-19 13:31:36 发布

arlionn

最新推荐文章于 2024-08-19 13:31:36 发布

阅读量5w

点赞数 33

分类专栏：内生性专题因果推断文章标签：合成控制法 stata

连享会 ( lianxh.cn ) 原创，转载申请：StataChina@163.com

本文链接：https://blog.csdn.net/arlionn/article/details/96473220

版权

作者：何庆红（北京大学中国卫生经济研究中心）

连享会：(知乎 | 主页 | 码云 | CSDN)

连享会推文集锦
Stata连享会精品专题

本推文介绍合成控制方法及其 Stata 的实现命令。合成控制方法（Synthetic Control Method）由Abadie and Gardeazabal (2003)提出。目前，该方法已被广泛使用。

1. 背景介绍

经济学家常要评估某政策或事件的效应。此政策可能实施于某国家或地区（省、州或城市）。为此，常使用“鲁宾的反事实框架”（Rubin’s counterfactual framework），即假想该地区如未受政策干预将会怎样，并与事实上受到干预的实际数据进行对比，二者之差即为“处理效应”（treatment effect，借用医学术语）。常用解决方法是，寻找适当的控制组（control group），即在各方面都与受干预地区相似却未受干预的其他地区，以作为处理组（treated group，即受到干预的地区）的反事实替身（counterfactuals）。

比如，要考察仅在A市实施的某政策效果，自然会想到以之相近的B市作为控制地区；但B市毕竟与A市不完全相同。或可用其他城市（B市、C市、D市）构成A市的控制组，比较B市、C市、D市与A市在政策实施前后的差别，此方法也称“比较案例研究”（comparative case studies）。但如何选择控制组通常存在主观随意性（ambiguity），而B市、C市、D市与A市的相似度也不尽相同。

为此，Abadie and Gardeazabal (2003)提出“合成控制法”（Synthetic Control Method）。其基本思想是，虽然无法找到A市的最佳控制地区，但通常可对若干大城市进行适当的线性组合，以构造一个更为优秀的“合成控制地区”（synthetic control region），并将“真实A市”与“合成A市”进行对比，故名“合成控制法”。合成控制法的一大优势是，可以根据数据（data-driven）来选择线性组合的最优权重，避免了研究者主观选择控制组的随意性。

合成控制方法（Synthetic Control Method）的优点
- 作为一种非参数的方法，是对传统的双重差分法DID的拓展
- 通过数据驱动确定权重，减少了主观选择的误差，避免了政策内生性问题
- 通过对多个控制对象加权来模拟目标对象政策实施前的情况，不仅可以清晰地反映每个控制对象对“反事实”事件的贡献，同时也避免了过分外推
- 可以对每一个研究个体提供与之对应的合成控制对象，避免平均化的评价，不至于因各国政策实施时间不同而影响政策评估结果，避免了主观选择造成的偏差
- 研究者们可在不知道实施效果的情况下设计实验

2. 合成控制法原理

原理介绍请看以下链接：
Stata: 合成控制法程序
 合成控制法：一组文献
 合成控制法简介及代码

3. 合成控制法的 Stata 实现

3.1 命令安装

在 Stata 命令窗口中输入如下命令即可自动安装 synth 命令：

ssc install synth, replace

3.2 语法格式

synth 的基本语法格式如下：

synth depvar predictorvars(x1 x2 x3) , trunit(#) trperiod(#)   ///
   [ counit(numlist) xperiod(numlist) mspeperiod()  ///
   resultsperiod() nested allopt unitnames(varname) ///
   figure keep(file) customV(numlist) optsettings ]

具体解释如下：

“ y ”为结果变量（outcome variable）
“ x1 x2 x3 ”为预测变量（predictors）。
必选项“ trunit(#) ”用于指定处理地区（trunit表示 treated unit）。
必选项“ trperiod(#) ”用于指定政策干预开始的时期（trperiod表示 treated period）。
选择项“ counit(numlist) ”用于指定潜在的控制地区（即donor pool，其中counit表示 control units），默认为数据集中的除处理地区以外的所有地区。
选择项“ xperiod(numlist) ”用于指定将预测变量（predictors）进行平均的期间，默认为政策干预开始之前的所有时期（the entire pre-intervention period）。
选择项“ mspeperiod() ”用于指定最小化均方预测误差（MSPE）的时期，默认为政策干预开始之前的所有时期。
选择项“ figure ”表示将处理地区与合成控制的结果变量画时间趋势图，而选择项“resultsperiod()”用于指定此图的时间范围（默认为整个样本期间）。
选择项“ nested ”表示使用嵌套的数值方法寻找最优的合成控制（推荐使用此选项），这比默认方法更费时间，但可能更精确。在使用选择项“nested”时，如果再加上选择项“ allopt ”（即“ nested allopt ”），则比单独使用“nested”还要费时间，但精确度可能更高。
选择项“ keep(filena