【Causality】结构因果下的反事实基本框架

在之前,博主整理了因果关系之梯第二层:干预的定义,意义,用法,详见以下链接

但干预的目标是找到研究中处理的某个总效应或者在某些样本群体中的效应(平均因果效应),到目前为止我们无法在特定时间谈论个性化的因果关系。而在实际的任务中,我们通过训练集获得的模型,最终是要对一个新的个体目标状态做判断的。想要实现对个体的处理效果的估计,就需要引入反事实框架。

引言

顾名思义,反事实是没有发生的事实,实际上对一个个体来说处理的选择都是不可逆的,当个体A选择了 T r e a t m e n t = 1 Treatment =1 Treatment=1时,现实中就无法出现 T r e a t m e n t = 0 Treatment =0 Treatment=0的个体A。即使是为发生的事情,人脑却可以实现“想象”。比如:“张三每天都抽烟最后得了肺癌,如果他不抽那么多,也许就不会得肺癌了。”我们假设人脑具有设想那个不存在的世界的能力。

那么反事实框架是如何使用观察数据和实验室据提取有关反事实情境的信息的呢?如何在因果图中表达个体层面的因?

起源:若非因果关系

  1. 被告的罪责
    针对被告的罪责,律师们一直使用的是一种相对直接的证明方法:若非(but-for)
    因果关系:若非被告做出某种行为,那么伤害事件就不会发生。
  2. 修昔底德
    假如没有地震,海啸是不可能发生的。
  3. 剂量-相应曲线、阈值效应
  4. “质料因”, “形式因” ,“动力因”, “目的因”
  5. 休谟的“规律性定义”:因是满足先行于、接近于另一个对象,且如果没有发生,那么后一个对象就不可能存在的对象。

假设1:潜在因果

假如X的值为x, 那么变量Y一定会去某个与之相对应的值,其客观存在性与Y在现实中实际取的值相当。

变量Y的一个潜在结果就是“假如X的值为x,那么Y在个体u上的取值”,记为 Y X = x ( u ) Y_{X=x}(u) YX=x(u),当X在上下文明显时,缩写为 Y x ( u ) Y_{x}(u) Yx(u)

假设2:人类心理结构的一致性

反事实认为,我们只需要假设人们有能力在头脑中想象出可能的世界,并能判断哪个世界“更接近”我们的真实世界,而且这个真实事件能够在群体中达成共识 ,由于我们体验的是同一个世界,那我们就共享因果结构的心理模型。

结构因果模型中的反事实

假如X曾是x,等价于我们处理干预 d o ( X = x ) do(X=x) do(X=x)的方式。对因果图进行尽可能小的修改,以满足X等于x。

结构因果模型

【Causality】因果图入门

do算子

【Causality】do calculus原理

步骤:因果第一定律

Y x ( u ) = Y M x ( u ) Y_x(u)=Y_{M_x}(u) Yx(u)=YMx(u)
M x M_x Mx表示新的图删除了所有指向X的箭头。

  1. (外展)利用关于个体的数据来估计爱丽丝的特质因子(idiosyncratic)
  2. (干预)利用do算子改变模型,以反映我们提出的反事实假设,得到修正图multipied graph
  3. (预测)利用修改后的模型以及有关外生变量的更新信息来估算个体结果值。

案例:工资预测

因果推断应当是模型驱动的,而不是数据驱动的。如在缺失值填补问题上,无论是众数填补,均值填补,都是基于其他数据来填充的,而根据因果之梯的理论,纯粹基于数据的方法(第一层级)可以回答反事实的问题(第三层级) 。

下表为一企业下不同背景的员工的工资发放情况,存在大量缺省值。

在这里插入图片描述
构造一个反事实 C k C_k Ck:假设Karolin的学历是1,那么Karolin的第二年工资是?

数据驱动的推断结果

此时从数据上来看karolin的反事实 C k C_k Ck与Poter是匹配的,所以我们认为Karolin的第二年工资是92500。

模型驱动的推断结果

实际上,如果考虑因果模型,我们假设工作经验与学历是有关系的,因果图如下,那么Karolin的第二年工资就不符合这种匹配关系。
在这里插入图片描述

很好解释,学历越高的人,接受教育的时间越长,那么对应的工作经验应该更少。但Karolin在受教育程度大于Poter的情况下,工作经验和Poter一致。那么我们认为当Karolin与Poter的学历一致时,Karolin的工作经验应该多于Poter,Karolin的第二年工资自然要高于Poter。

(这或许就计量中变量间不能有内生性的原因?)

反事实推理

当Alice学历为1时,工资为多少?

先行:结构因果修正线性回归方程

通过线性回归方法,我们得到工资问题因果图蕴含的的三个方程,并添加隐变量 U U U进行因果:
S = 65000 + 2500 ∗ E X + 5000 ∗ E D + U s S=65000+2500*EX+5000*ED+U_s S=65000+2500EX+5000ED+Us
E X = 10 − 4 ∗ E D + U E X EX=10-4*ED+U_{EX} EX=104ED+UEX

步骤1:外展

从数据中观察EX,ED,得到特质因子 U s U_s Us U E X U_{EX} UEX

步骤2:干预

令ED=1,去混,得到新的修正图

步骤3: 预测

更新ED‘信息,得到新的工作经验EX’,最终得到预测的工资 S E D = 1 ( 爱丽丝 ) S_{ED=1}(爱丽丝) SED=1(爱丽丝)

进一步的分析

实际上,我认为文中对上述问题的分析还有一个隐含的假设:他们的年龄是一致的。只有年龄相同时,学历和工作经验才会出现非常明显的线性相关性,否则学历和经验应该还与年龄相关,其因果图如下。
在这里插入图片描述

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值