CHAPTER2 in Most-Harmless-Econometrics
内容
《基本无害的计量经济学》第二章:理想实验
使用软件
STATA16 MP
理论
1. 选择性偏差
我们可以举一个非常简单的例子来表述因果关系,去医院能让人变得更加健康吗?
NHIS对上述问题进行过相关数据统计,下表给出了受调群众最近去过医院和没去过医院的人的平均健康状况。
可见两者之间的平均差距是0.72,那么这就可以说明去医院会使人的健康变得更糟糕吗?
这种简单的直接比较忽略了一个严重的问题:选择去医院的人的健康状况可能本来就很差。更进一步来说:那些去医院接受治疗的人
的健康水平可能还不如没去过医院的人,对于这些人或许不去医院会使其身体状况更差,即使经过医院治疗也不一定能赶上不去医院的人。
为了进一步描述上述分析中忽略的因素,可以把接受医院与否划分为一个虚拟变量:
潜
在
结
果
=
{
Y
1
i
i
f
D
i
=
1
Y
0
i
i
f
D
i
=
0
潜在结果= \begin{cases} Y_{1i} \ \ \ if\ D_i=1 \\ Y_{0i} \ \ \ if\ D_i=0 \end{cases}
潜在结果={Y1i if Di=1Y0i if Di=0
也就是说,如果某人没有去医院,那么他的健康状况是
Y
0
i
Y_{0i}
Y0i,如果假设这个人去过医院,那么他的健康状况将是
Y
1
i
Y_{1i}
Y1i,这两者之间的差异即可表示为某人在医院接受治疗对其健康状况产生的影响——因果效应。
最终观测到某人的潜在健康状态结果
Y
i
Y_i
Yi可以用下述线性组合表示:
Y
i
=
{
Y
1
i
i
f
D
i
=
1
Y
0
i
i
f
D
i
=
0
=
Y
0
i
+
(
Y
1
i
−
Y
0
i
)
D
i
Y_i= \begin{cases} Y_{1i}\ \ \ if \ D_i=1 \\ Y_{0i} \ \ \ if\ D_i=0 \end{cases} =Y_{0i}+(Y_{1i}-Y_{0i})D_i
Yi={Y1i if Di=1Y0i if Di=0=Y0i+(Y1i−Y0i)Di
可见当
D
i
=
1
D_i=1
Di=1时,
Y
1
i
−
Y
0
i
Y_{1i}-Y_{0i}
Y1i−Y0i即表示个体去医院对健康的影响,对于不同的个体,其处理效应的大小也有所差异。但是,在现实生活中,同时观测到上述
Y
1
i
Y_{1i}
Y1i 与
Y
0
i
Y_{0i}
Y0i 几乎是不可能的。所以我们需要尽可能的观测同一类人去医院治疗和不去医院治疗对健康的影响。
下面的公式就将去医院接受治疗与否带来的对平均健康水平的差异与平均因果效应(average casual effect)联系在一起:
E
[
Y
i
∣
D
i
=
1
]
−
E
[
Y
i
∣
D
i
=
0
]
=
(
E
[
Y
1
i
∣
D
i
=
1
]
−
E
[
Y
0
i
∣
D
i
=
1
]
)
+
(
E
[
Y
0
i
∣
D
i
=
1
]
−
E
[
Y
0
i
∣
D
i
=
0
]
)
E[Y_i|D_i=1]-E[Y_i|D_i=0]=(E[Y_{1i}|D_i=1]-E[Y_{0i}|D_i=1])+(E[Y_{0i}|D_i=1]-E[Y_{0i}|D_i=0])
E[Yi∣Di=1]−E[Yi∣Di=0]=(E[Y1i∣Di=1]−E[Y0i∣Di=1])+(E[Y0i∣Di=1]−E[Y0i∣Di=0])
上式中
E
[
Y
1
i
∣
D
i
=
1
]
E[Y_{1i}|D_i=1]
E[Y1i∣Di=1] 表示接受住院治疗的人的平均健康水平,
E
[
Y
0
i
∣
D
i
=
1
]
E[Y_{0i}|D_i=1]
E[Y0i∣Di=1]表示接受住院治疗的人未接受治疗前的健康水平,
E
[
Y
0
i
∣
D
i
=
0
]
E[Y_{0i}|D_i=0]
E[Y0i∣Di=0]表示没有接受住院治疗的人的平均健康水平。因此,上式中简单的比较结果
E
[
Y
i
∣
D
i
=
1
]
−
E
[
Y
i
∣
D
i
=
0
]
E[Y_i|D_i=1]-E[Y_i|D_i=0]
E[Yi∣Di=1]−E[Yi∣Di=0] 可以被分解为两个部分:
1.
E
[
Y
1
i
∣
D
i
=
1
]
−
E
[
Y
0
i
∣
D
i
=
1
]
E[Y_{1i}|D_i=1]-E[Y_{0i}|D_i=1]
E[Y1i∣Di=1]−E[Y0i∣Di=1]表示处理的平均因果效应,它可以写为
E
[
Y
1
i
−
Y
0
i
∣
D
i
=
1
]
E[Y_{1i}-Y_{0i}|D_i=1]
E[Y1i−Y0i∣Di=1] 2.
E
[
Y
0
i
∣
D
i
=
1
]
−
E
[
Y
0
i
∣
D
i
=
0
]
E[Y_{0i}|D_i=1]-E[Y_{0i}|D_i=0]
E[Y0i∣Di=1]−E[Y0i∣Di=0]即可表示为选择性偏误(selection bias),它表示接受治疗与不接受治疗的人,在被治疗前的健康水平的平均差异。
在上述例子中,我们发现简单的直接均值
E
[
Y
i
∣
D
i
=
1
]
−
E
[
Y
i
∣
D
i
=
0
]
E[Y_i|D_i=1]-E[Y_i|D_i=0]
E[Yi∣Di=1]−E[Yi∣Di=0] 比较会出现选择性偏误问题,事实上,在上述例子中选择接受治疗的人的+在治疗前的健康状态(
E
[
Y
0
i
∣
D
i
=
1
]
E[Y_{0i}|D_i=1]
E[Y0i∣Di=1])可能会远低于不需要接受治疗的人的健康水平(
E
[
Y
0
i
∣
D
i
=
0
]
E[Y_{0i}|D_i=0]
E[Y0i∣Di=0]),因此会导致选择性偏误为负,这可能会使我们找到的因果效应
E
[
Y
i
∣
D
i
=
1
]
−
E
[
Y
i
∣
D
i
=
0
]
E[Y_i|D_i=1]-E[Y_i|D_i=0]
E[Yi∣Di=1]−E[Yi∣Di=0] 符号相反而与现实情况相反。所以,经济学中大部分实证研究的目的就是剔除这种选择性偏误。
2. 用随机分配解决选择性偏差
- 对
D
i
D_i
Di随机分配可以解决选择性偏差问题。这是因为随机分配
D
i
D_i
Di可以使其独立于
Y
i
Y_i
Yi,考虑以下公式:
E [ Y i ∣ D i = 1 ] − E [ Y i ∣ D i = 0 ] = E [ Y 1 i ∣ D i = 1 ] − E [ Y 0 i ∣ D i = 0 ] = E [ Y 1 i ∣ D i = 1 ] − E [ Y 0 i ∣ D i = 1 ] E[Y_i|D_i=1]-E[Y_i|D_i=0]=E[Y_{1i}|D_i=1]-E[Y_{0i}|D_i=0]=E[Y_{1i}|D_i=1]-E[Y_{0i}|D_i=1] E[Yi∣Di=1]−E[Yi∣Di=0]=E[Y1i∣Di=1]−E[Y0i∣Di=0]=E[Y1i∣Di=1]−E[Y0i∣Di=1] - 这也就是说,随机分配患者进行治疗得到的健康水平均值比较 E [ Y 1 i ∣ D i = 1 ] − E [ Y 0 i ∣ D i = 0 ] E[Y_{1i}|D_i=1]-E[Y_{0i}|D_i=0] E[Y1i∣Di=1]−E[Y0i∣Di=0]等同于因果效应。
举例
-
对于随机化研究方法比较著名案例之一是田纳西州师生比例改进计划(Tennessee Student Teacher Achievement Ratio Experiment,STAR)
。经济学家希望建立课堂规模(班级学生人数)与学生学习成绩之间的因果关系,但是教育学领域使用的数据大多数为非实验数据,这些数据表明课堂规模与学习成绩之间几乎没有联系,这可能是由于班级规模与学生特征有联系,从而大致选择性偏误不为0。 -
因此不能只简单的比较可观测数据(非随机)来考察两者之间的关系。STAR则通过随机实验跨越了这层障碍,这项实验设置三个处理组:13-17人的班级、22-25人的班级、22-25人的班级并配备一名全职助教,并将学生随机分配至这三组中。为了考察随机化分配是否成功,可以比较学生各个特征的组间均值。表2.1展示了相关特征以及学生成绩的组间均值情况。
-
由于随机化实验可以去掉选择性偏误。所以,可以通过对各个处理组的虚拟变量进行回归得到处理组与实验组之间的成绩差异。加入控制变量后的回归结果见表2.2。
- 表2.2指出,小班教学对学习成绩大概有5%的提升。
3. 对实验的回归分析
- 回归是研究因果关系的有利工具,假设因果效应对每个人的一样(为常数):
Y
1
i
−
Y
0
i
=
ρ
Y_{1i}-Y_{0i}=\rho
Y1i−Y0i=ρ,那么我们可以将一式写成:
Y i = α + ρ D i + η i Y_i = \alpha + \rho D_i + \eta_i Yi=α+ρDi+ηi - 其中, α \alpha α表示 E ( Y 0 i ) E(Y_{0i}) E(Y0i), ρ i \rho_i ρi表示 Y 1 i − Y 0 i Y_{1i}-Y_{0i} Y1i−Y0i, η i \eta_i ηi表示 Y 0 i − E ( Y 0 i ) Y_{0i}-E(Y_{0i}) Y0i−E(Y0i)。
- 对于上式,求条件期望可得:
E [ Y i ∣ D i = 1 ] = α + ρ + E [ η i ∣ D i = 1 ] E[Y_i|D_i = 1]=\alpha +\rho + E[\eta_i |D_i =1] E[Yi∣Di=1]=α+ρ+E[ηi∣Di=1]
E [ Y i ∣ D i = 0 ] = α + E [ η i ∣ D i = 0 ] E[Y_i|D_i = 0]=\alpha + E[\eta_i |D_i =0] E[Yi∣Di=0]=α+E[ηi∣Di=0]
E [ Y i ∣ D i = 1 ] − E [ Y i ∣ D i = 0 ] = ρ + E [ η i ∣ D i = 1 ] − E [ η i ∣ D i = 0 ] E[Y_i|D_i = 1]-E[Y_i|D_i = 0]=\rho + E[\eta_i |D_i =1]-E[\eta_i |D_i =0] E[Yi∣Di=1]−E[Yi∣Di=0]=ρ+E[ηi∣Di=1]−E[ηi∣Di=0] - 其中, E [ η i ∣ D i = 1 ] − E [ η i ∣ D i = 0 ] E[\eta_i |D_i =1]-E[\eta_i |D_i =0] E[ηi∣Di=1]−E[ηi∣Di=0]可以简化为 E [ Y 0 i ∣ D i = 1 ] − E [ Y 0 i ∣ D i = 0 ] E[Y_{0i} |D_i =1]-E[Y_{0i} |D_i =0] E[Y0i∣Di=1]−E[Y0i∣Di=0],即为选择性偏差。
Stata实证
- 这里展示上述例子中,表2.1的
stata
实现过程。 - 完整数据、
stata do
文件下载来自Mostly Harmless官网-krueger(1999)-webstar
clear all
set more off
eststo clear
- 导入数据
use webstar.dta, clear
- 生成变量
gen white_asian = (inlist(srace, 1, 3)) if !missing(srace)
label var white_asian "White/Asian"
- 计算学生测试成绩所处的分位数
local testscores "treadssk tmathssk treadss1 tmathss1 treadss2 tmathss2 treadss3 tmathss3"
foreach var of varlist `testscores' {
xtile pct_`var' = `var', nq(100)
}
egen avg_pct = rowmean(pct_*)
label var avg_pct "Percentile score in kindergarten"
参考文献
安格里斯特, 皮施克. 基本无害的计量经济学: 实证研究者指南 / (美) 安格里斯特, (美) 皮施克著 ; 郎金焕, 李井奎译.[M]. 2012.