引言
因果关系和其余条件不变分析
经济学和其他社会科学中的大多数实证研究的目标是确定一个变量(如w)的变化是否会导致另一个变量(如y)的变化。
其余条件不变(ceteris paribus),即固定所有其他(相关)因素,是建立因果关系(causal relationship) 的关键。 我们可以使用计量经济方法有效地固定其他因素。
如果我们关注平均或预期的响应,其余条件不变需要估计 E( y ∣ w y|w y∣w,c) ,即 w w w 和 c 为条件的 y y y 的期望值。向量 c 表示一组控制变量,因为 w w w 与 c 可能有关。如果 w w w 是连续的, w w w 对于 E( y ∣ w y|w y∣w,c) 的局部效应为 ∂ E ( y ∣ w , c ) ∂ w \frac{\partial E(y|w,c)}{\partial w} ∂w∂E(y∣w,c);如果 w w w 是离散的,我们考虑 c 在相同的指定值上在不同 w w w 值时的 E( y ∣ w y|w y∣w,c)。
不幸的是,在经济学和其他社会科学中, c 的许多元素没有被观察到。
例如,在估计教育和工资的因果关系时,我们可能会把重点放在 E( w a g e ∣ e d u c , e x p e r , a b i l wage|educ,exper,abil wage∣educ,exper,abil) , e d u c educ educ 是是教育年限, e x p e r exper exper是劳动经验, a b i l abil abil 是天生的能力。此时,c=( e x p e r , a b i l exper,abil exper,abil), e x p e r exper exper 是可观测的而 a b i l abil abil 是不可观测的。
除了无法获得所有希望控制的数据外,其他问题还会干扰因果关系的估计。 例如,即使我们对 c 的元素有很好的度量,我们也可能没有很好的 y y y 或 w w w 的度量。
随机设置与渐近分析
数据结构
为了对现代截面和面板数据方法进行适当的处理,我们必须选择一个适合于大多数计量经济应用所收集的截面和面板数据集的类型的随机设定。大多数情况,采用随机抽样(random sampling)假设,具体而言:(1)一个被指定的总体模型(population model);(2)可以从总体中抽取的一个独立同分布(independent,identically distributed (i.i.d.)) 的样本。
随机抽样假设的一个重要优点是它允许我们将抽样假设与对总体模型的假设分开。 除了适当强调影响经济行为的假设外,用总体说明所有假设实际上比用完整数据矩阵说明假设的传统方法容易得多。
对于横截面数据(cross section data) 来说,随机抽样经常是合情合理的,其中在给定时点上,一些单位是从总体中以随机方式抽出来的,任何解释变量都被当成关于响应变量数据的随机结果
我们不能把随机抽样假设与所谓的实验数据(experimental data) 混为一谈。实验数据会受到固定解释变量范式的影响。
整群抽样(cluster sampling) 在横截面数据集合中也会导致相关性,但在大多数情况下,以经济计量学方法处理起来相对容易。
面板数据(panel data) 或纵向数据(longitudinal data) 是由对同一横截面的反复观测而组成的,对于这种数据,随机抽样假设变得非常受限制。但是,随机抽样假设考虑了时间相关性,可以在横截面维数中假定随机抽样。
渐近分析
在横截面分析中,渐进性就像是趋向于无穷的观测值数目(N)一样;对于面板数据分析而言,当时间序列维数是固定的时候,渐近性像是变大了的横截面一样。
为什么不固定解释变量
在经济计量学初级教程中,OLS及其扩展形式的方法,通常是在固定回归元假设下学习的。但例如在面板数据模型中,假定固定回归元或固定工具变量经常把非现实的约束施加于动态经济行为之上。
考察横截面数据的线性模型,对每个观测值
i
i
i ,把其写成:
y
i
=
β
0
+
x
i
β
+
u
i
,
i
=
1
,
2
,
⋯
,
N
y_i = \beta_0 + \pmb{x_i\beta} +u_i,\ \ i=1,2,\cdots,N
yi=β0+xiβxiβxiβ+ui, i=1,2,⋯,N
其中
x
i
\pmb{x_i}
xixixi 表示1
×
\times
×
K
K
K 向量,而
β
\pmb{\beta}
βββ 表示
K
K
K
×
\times
× 1向量。通常此模型“理想”假设被表述成“误差{
u
i
:
i
=
1
,
2
,
⋯
,
N
u_i:i=1,2,\cdots,N
ui:i=1,2,⋯,N}是i.i.d.的,满足
E
(
u
i
)
=
0
E(u_i)=0
E(ui)=0 且
V
a
r
(
u
i
)
=
σ
2
Var(u_i)=\sigma_2
Var(ui)=σ2。如果
x
i
\pmb{x_i}
xixixi 被看成是非随机的,那么
u
i
u_i
ui 与
x
i
\pmb{x_i}
xixixi 是彼此独立的。在非实验环境下,这种假设剔除了许多关注的情况。一些重要的问题,比如对于含有不同解释变量的模型之间的有效性进行比较,甚至在固定回归元的背景下也不能提出。
与假定固定解释变量体系相比,统一化的随机抽样专题实际上可以简化渐近分析。
理想实验
选择性偏误
潜在结果= { Y 1 i i f D i = 1 Y 0 i i f D i = 0 \begin{cases}Y_{1i}\ \ if\ D_i=1\\Y_{0i}\ \ if\ D_i=0\end{cases} {Y1i if Di=1Y0i if Di=0, Y i = { Y 1 i i f D i = 1 Y 0 i i f D i = 0 = Y 0 i + ( Y 1 i − Y 0 i ) D i Y_i=\begin{cases}Y_{1i}\ \ if\ D_i=1\\Y_{0i}\ \ if\ D_i=0\end{cases}=Y_{0i}+(Y_{1i}-Y_{0i})D_i Yi={Y1i if Di=1Y0i if Di=0=Y0i+(Y1i−Y0i)Di
平均因果效应: E [ Y i ∣ D i = 1 ] − E [ Y i ∣ D i = 0 ] = E [ Y 1 i ∣ D i = 1 ] − E [ Y 0 i ∣ D i = 1 ] ⏟ 处 理 的 平 均 因 果 效 应 + E [ Y 0 i ∣ D i = 1 ] − E [ Y 0 i ∣ D i = 0 ] ⏟ 选 择 性 偏 误 E[Y_i|D_i=1]-E[Y_i|D_i=0]=\underbrace{E[Y_{1i}|D_i=1]-E[Y_{0i}|D_i=1]}_{处理的平均因果效应}+\underbrace{E[Y_{0i}|D_i=1]-E[Y_{0i}|D_i=0]}_{选择性偏误} E[Yi∣Di=1]−E[Yi∣Di=0]=处理的平均因果效应 E[Y1i∣Di=1]−E[Y0i∣Di=1]+选择性偏误 E[Y0i∣Di=1]−E[Y0i∣Di=0]
用随机分配解决选择性偏误
随机分配使得
D
i
D_i
Di 独立于潜在结果,考虑:
E
[
Y
i
∣
D
i
=
1
]
−
E
[
Y
i
∣
D
i
=
0
]
=
E
[
Y
1
i
∣
D
i
=
1
]
−
E
[
Y
0
i
∣
D
i
=
1
]
+
E
[
Y
0
i
∣
D
i
=
1
]
−
E
[
Y
0
i
∣
D
i
=
0
]
E[Y_i|D_i=1]-E[Y_i|D_i=0]=E[Y_{1i}|D_i=1]-E[Y_{0i}|D_i=1]+E[Y_{0i}|D_i=1]-E[Y_{0i}|D_i=0]
E[Yi∣Di=1]−E[Yi∣Di=0]=E[Y1i∣Di=1]−E[Y0i∣Di=1]+E[Y0i∣Di=1]−E[Y0i∣Di=0]
由
Y
0
i
、
D
i
Y_{0i}、D_i
Y0i、Di 之间的独立性可知:
E
[
Y
0
i
∣
D
i
=
1
]
=
E
[
Y
0
i
∣
D
i
=
0
]
E[Y_{0i}|D_i=1]=E[Y_{0i}|D_i=0]
E[Y0i∣Di=1]=E[Y0i∣Di=0],从而上式等于0,可以去掉选择性偏误。
同时: E [ Y 1 i ∣ D i = 1 ] − E [ Y 0 i ∣ D i = 1 ] = E [ Y 1 i − Y 0 i ∣ D i = 1 ] = E [ Y 1 i − Y 0 i ] E[Y_{1i}|D_i=1]-E[Y_{0i}|D_i=1]=E[Y_{1i}-Y_{0i}|D_i=1]=E[Y_{1i}-Y_{0i}] E[Y1i∣Di=1]−E[Y0i∣Di=1]=E[Y1i−Y0i∣Di=1]=E[Y1i−Y0i]
对实验的回归分析
假设因果效应对所有人都一样,即
Y
1
i
−
Y
0
i
=
ρ
Y_{1i}-Y_{0i}=\rho
Y1i−Y0i=ρ 是个常数,则有:
Y
i
=
α
+
ρ
D
i
+
η
i
E
[
Y
i
∣
D
i
=
1
]
=
α
+
ρ
+
E
[
η
i
∣
D
i
=
1
]
E
[
Y
i
∣
D
i
=
0
]
=
α
+
E
[
η
i
∣
D
i
=
0
]
E
[
Y
i
∣
D
i
=
1
]
−
E
[
Y
i
∣
D
i
=
0
]
=
ρ
⏟
处
理
效
应
+
E
[
η
i
∣
D
i
=
1
]
−
E
[
η
i
∣
D
i
=
0
]
⏟
选
择
性
偏
误
Y_i=\alpha+\rho D_i+\eta_i\\E[Y_i|D_i=1]=\alpha+\rho+E[\eta_i|D_i=1]\\E[Y_i|D_i=0]=\alpha+E[\eta_i|D_i=0]\\E[Y_i|D_i=1]-E[Y_i|D_i=0]=\underbrace\rho_{处理效应}+\underbrace {E[\eta_i|D_i=1]-E[\eta_i|D_i=0]}_{选择性偏误}
Yi=α+ρDi+ηiE[Yi∣Di=1]=α+ρ+E[ηi∣Di=1]E[Yi∣Di=0]=α+E[ηi∣Di=0]E[Yi∣Di=1]−E[Yi∣Di=0]=处理效应
ρ+选择性偏误
E[ηi∣Di=1]−E[ηi∣Di=0]
选择性偏误意味着回归残差项
η
i
\eta_i
ηi 和回归元
D
D
D 之间的相关性。
E [ Y 0 i ∣ D i = 1 ] − E [ Y 0 i ∣ D i = 0 ] = E [ η i ∣ D i = 1 ] − E [ η i ∣ D i = 0 ] E[Y_{0i}|D_i=1]-E[Y_{0i}|D_i=0]=E[\eta_i|D_i=1]-E[\eta_i|D_i=0] E[Y0i∣Di=1]−E[Y0i∣Di=0]=E[ηi∣Di=1]−E[ηi∣Di=0]