因果2-潜在结果框架
摘要:从因果到统计,我们需要走多久?
上一章我们从因果和统计学的关系出发,初步了解了一个经典因果框架:潜在结果框架,今天我们继续学习这个框架。
图1是上周我们留下的”吃药治头疼“的数据表格。我们如何从该表格中求出平均处理效应呢?
让我们假定这是在随机对照实验中获得的数据,即统计关联等于因果效果,可以求得ATE=
1
3
\frac{1}{3}
31,如图2所示。
但根据上一章可知,能满足随机对照试验的数据太少了,真实观测数据中充斥着混淆变量, E [ Y ( 1 ) ] − E [ Y ( 0 ) ] = E [ Y ∣ T = 1 ] − E [ Y ∣ T = 0 ] E[Y(1)]-E[Y (0)]=E[Y|T=1]-E[Y|T=0] E[Y(1)]−E[Y(0)]=E[Y∣T=1]−E[Y∣T=0] 不成立。
如果想进行观察性研究,就必须突破这个壁垒,使得因果表达式能完全转化为统计表达式,我们称这种能力为identifiability(可识别性),即如果一个因果量可以通过纯统计量计算得到,则该因果量为可识别的,这意味着我们可以从观测数据中求得因果效应。
为此潜在结果框架提出了四个假设:
- unconfoundedness
- positivity
- no interference
- consistency
让我们根据ATE公式的推导一步一步理解这四个假设。
首先从ATE最开始的形式出发,其实最简单的ATE= E [ Y ( 1 ) − Y ( 0 ) ] E[Y(1)-Y(0)] E[Y(1)−Y(0)]也不是在任何时候都有意义,比如我们要治疗传染病,这个等式就不成立,在同一时间内对患病个体的治疗不仅会影响个体自己的结果变量,还会影响到未患病的个体,因此没法以患者个体作为单位去计算因果效应。
No interference便是ATE= E [ Y ( 1 ) − Y ( 0 ) ] E[Y(1)-Y(0)] E[Y(1)−Y(0)]背后支撑的假设。
No interference
无交互影响,其定义为:
Y i ( t 1 , . . . , t i − 1 , t i , t i + 1 , . . . , t n ) = Y i ( t i ) Y_i(t_1,...,t_{i-1},t_i,t_{i+1},...,t_n)=Yi(t_i) Yi(t1,...,ti−1,ti,ti+1,...,tn)=Yi(ti)
即t的不同取值之间没有干预作用,从数据的角度来理解,我们可以认为这个定义是为了保证T为一个集合,T中元素满足集合元素的三个定义,即确定性,互异性,无序性。
只有满足这个假设, ( Y ( 1 ) − Y ( 0 ) (Y(1)-Y(0) (Y(1)−Y(0)才有意义。在数据满足No interference假设后,我们才能定义ATE为:
E [ Y ( 1 ) − Y ( 0 ) ] E[Y(1)-Y(0)] E[Y(1)−Y(0)](No interference)
= E [ Y ( 1 ) ] − E [ Y ( 0 ) ] =E[Y(1)]-E[Y(0)] =E[Y(1)]−E[Y(0)] (期望的线性性质)
因为我们的目标是观测性研究,因此引入混淆变量X,
= E x [ E [ Y ( 1 ) ∣ X ] − E [ Y ( 0 ) ∣ X ] ] =Ex[E[Y(1)|X]-E[Y(0)|X]] =Ex[E[Y(1)∣X]−E[Y(0)∣X]] (双重期望值定理)
至此便到了因果与统计的边界,需要下一个假设。
Unconfoundedness
无混淆性,公式为:
( Y 1 , Y 0 ) ⊥ ⊥ T ∣ X (Y_{1}, Y_0) {\perp \!\!\! \perp} T|X (Y1,Y0)⊥⊥T∣X
在介绍他之前,我们先介绍ignorability。
ignorability
可忽略性,又名为exchangeability(可交换性)。公式为:
( Y 1 , Y 0 ) ⊥ ⊥ T (Y_{1}, Y_0) {\perp \!\!\! \perp} T (Y1,Y0)⊥⊥T,即 Y 1 , Y 0 Y_{1}, Y_0 Y1,Y0的取值和T的分布独立。
我们可以从三个角度来理解这个假设。
首先,根据简单的直觉,我们可以将其理解为随机对照实验中T是完全随机的这一条件。
从可忽略性的角度理解:我们需要注意, ( Y 1 , Y 0 ) ⊥ ⊥ T (Y_{1}, Y_0) {\perp \!\!\! \perp} T (Y1,Y0)⊥⊥T和 Y ⊥ ⊥ T Y {\perp \!\!\! \perp} T Y⊥⊥T的区别, Y ⊥ ⊥ T Y {\perp \!\!\! \perp} T Y⊥⊥T是指Y和T是完全独立的,甚至连因果效应都没有,而 ( Y 1 , Y 0 ) ⊥ ⊥ T (Y_{1}, Y_0) {\perp \!\!\! \perp} T (Y1,Y0)⊥⊥T中的Y已经确定了T的取值,说明的是Y的分布和T值的分配相互独立,也因此我们可以忽略T值的分布,即假定T是完全随机的。当然也可以理解为可以忽略混淆变量的影响。
我们还可以从可交换性的角度理解,如图3所示。我们可以随意交换T的取值,但Y(1)和Y(0)的期望不会改变。
同时根据图3的推导可以发现,只要满足ignorability,$ E[Y(1)]-E[Y (0)]=E[Y|T=1]-E[Y|T=0]$ 的等式就成立了。但这个假设是在忽略了混淆变量的情况下提出的,这在随机对照试验中成立,但不满足观测性研究的条件。
unconfoundedness
因此我们引入混淆变量,得到conditional ignorability假设,即Unconfoundedness,又称为conditional exchangeability,其公式为:
( Y 1 , Y 0 ) ⊥ ⊥ T ∣ X (Y_{1}, Y_0) {\perp \!\!\! \perp} T |X (Y1,Y0)⊥⊥T∣X
公式很好理解,即在相关的混淆变量条件下(condition on)求条件分布,使得 ( Y 1 , Y 0 ) (Y_{1}, Y_0) (Y1,Y0)和 T T T基于X的条件分布相互独立。
但只有这个假设,我们还不可以进一步推导公式
E [ Y ( 1 ) − Y ( 0 ) ] E[Y(1)-Y(0)] E[Y(1)−Y(0)](No interference)
= E [ Y ( 1 ) ] − E [ Y ( 0 ) ] =E[Y(1)]-E[Y(0)] =E[Y(1)]−E[Y(0)] (期望的线性性质)
= E x [ E [ Y ( 1 ) ∣ X ] − E [ Y ( 0 ) ∣ X ] ] =Ex[E[Y(1)|X]-E[Y(0)|X]] =Ex[E[Y(1)∣X]−E[Y(0)∣X]] (双重期望值定理),我们仍需要另一个假设,原因如图4,我们无法保证红线分母有意义。
unconfoundedness是不可测的。我们无法确认是否还有未观测的confounder。
Positivity
译为非零性,但感觉不够直观。又称为Overlap(重叠性),定义为:
给定所有协变量x的取值 P ( X = x ) > 0 P(X=x)>0 P(X=x)>0,都有 0 < P ( T = 1 ∣ X = x ) < 1 0<P(T=1|X=x)<1 0<P(T=1∣X=x)<1
为了解决图4问题,我们需要定义这个假设确保分母的乘积始终大于0,即满足positivity。基于该假设,图4的分母便始终有意义。这个假设的现实意义也很好理解,如图5所示,假设对于一组数据,我们想关注里面X=x子组的因果效应,但发现X=x子组里全是实验组的数据,没有控制组,那就无法求得因果效应。
我们还可以从overlap的角度理解,考虑图5所示的情况时,P(X|T)的取值范围。当X=x时,T永远只等于1,换句话说就是P(X|T=0)的取值范围不包含X=x,那我们可以据此画一个直方图,横轴表示x的取值范围,竖轴表示P(x|t),如图6所示,(a)表示完全违背positivity假设, P ( X ∣ T = 0 ) P(X|T=0) P(X∣T=0)和 P ( X ∣ T = 1 ) P(X|T=1) P(X∣T=1)两个分布没有overlap重叠面积,(b)表示部分遵守positivity假设,即只有重叠的部分满足positivity假设,(c)表示完全满足positivity假设,此时数据中所有X的取值都满足positivity。
The Positivity-Unconfoundedness Tradeoff
positivity假设和unconfoundedness假设之间的权衡。
图6揭示了在只有一个混淆变量X时,positivity违背的情况。我们看看逐步增加混淆变量X个数时,positivity会发生什么变化,如图7所示。
可以发现,随着X个数的增多,positivity假设成立的可能也越小。但刚好我们控制的X个数越多,满足unconfoundedness的可能性也越高,这说明positivity和unconfoundedness很难两全,我们在实验中往往需要在二者间做一个权衡。
好了,介绍完positivity假设,我们就可以进一步推公式了
E [ Y ( 1 ) − Y ( 0 ) ] E[Y(1)-Y(0)] E[Y(1)−Y(0)](No interference)
= E [ Y ( 1 ) ] − E [ Y ( 0 ) ] =E[Y(1)]-E[Y(0)] =E[Y(1)]−E[Y(0)] (期望的线性性质)
= E x [ E [ Y ( 1 ) ∣ X ] − E [ Y ( 0 ) ∣ X ] ] =Ex[E[Y(1)|X]-E[Y(0)|X]] =Ex[E[Y(1)∣X]−E[Y(0)∣X]] (双重期望值定理)
= E x [ E [ Y ( 1 ) ∣ T = 1 , X ] − E [ Y ( 0 ) ∣ T = 0 , X ] ] =Ex[E[Y(1)|T=1,X]-E[Y(0)|T=0,X]] =Ex[E[Y(1)∣T=1,X]−E[Y(0)∣T=0,X]](unconfoundedness和positivity)
到这里还剩最后一步,Y(1)=>Y的转化,让我们看最后一个假设。
Consistency
一致性,定义:
如果处理为T,则观测结果 Y Y Y就是接受处理 T T T的潜在结果,即 T = t T=t T=t,则 Y = Y ( t ) Y=Y(t) Y=Y(t),或者可直接写做 Y = Y ( T ) Y=Y(T) Y=Y(T)。
定义可能比较绕,我们简单理解他,其实说的就是对于任意t,都只存在一个Y值。举个例子,假如我们定义T为喝水,Y为立即死亡,研究喝水是否会导致人立即死亡。然后让有的人喝白开水,有的人喝毒水,这是我们会发现对于T=1,Y可以取0和1两个值,那这种情况下就不满足consistency。
再结合no interference,从数学角度理解,我们称满足no interference 和 consistency两个假设时,T到Y满足映射关系,也可以说Y是T的函数,我们又称当Y是T的函数时,满足SUTVA(stable unit-treatment value assumption,个体处理稳定性假设)。
Adjustment Formula
调整公式。
再基于consistency假设,我们就可以完全建立因果到统计的桥梁,从观测数据中计算因果效应了,公式:
E [ Y ( 1 ) − Y ( 0 ) ] E[Y(1)-Y(0)] E[Y(1)−Y(0)](No interference)
= E [ Y ( 1 ) ] − E [ Y ( 0 ) ] =E[Y(1)]-E[Y(0)] =E[Y(1)]−E[Y(0)] (期望的线性性质)
= E x [ E [ Y ( 1 ) ∣ X ] − E [ Y ( 0 ) ∣ X ] ] =Ex[E[Y(1)|X]-E[Y(0)|X]] =Ex[E[Y(1)∣X]−E[Y(0)∣X]] (双重期望值定理)
= E x [ E [ Y ( 1 ) ∣ T = 1 , X ] − E [ Y ( 0 ) ∣ T = 0 , X ] ] =Ex[E[Y(1)|T=1,X]-E[Y(0)|T=0,X]] =Ex[E[Y(1)∣T=1,X]−E[Y(0)∣T=0,X]](unconfoundedness和positivity)
= E x [ E [ Y ∣ T = 1 , X ] − E [ Y ∣ T = 0 , X ] ] =Ex[E[Y|T=1,X]-E[Y|T=0,X]] =Ex[E[Y∣T=1,X]−E[Y∣T=0,X]](consistency)
我们称建立从因果到统计桥梁的这个公式为Adjustment Formula(调整公式)或者identification of ATE(ATE识别公式):
E [ Y ( 1 ) − Y ( 0 ) ] = E x [ E [ Y ∣ T = 1 , X ] − E [ Y ∣ T = 0 , X ] ] E[Y(1)-Y(0)]=Ex[E[Y|T=1,X]-E[Y|T=0,X]] E[Y(1)−Y(0)]=Ex[E[Y∣T=1,X]−E[Y∣T=0,X]]
好的这一章到这里就结束了,这一章内容十分重要,这是我们学到的第一个求因果效应的模型,公式看起来很多,但其实都是初中级别的数学推导,希望感兴趣的同学可以自己跟着调整公式过一下思路:如图8所示,我们通过识别因果量,得到统计量,再通过统计量得到统计结果。[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-5tEwN3rN-1620387610547)
当然如果同学们觉得还是有些云里雾里也没关系,下一章开始,我们会介绍一个更直观的框架-因果图。