因果推理的do算子

在因果推理中,我们一般都需要首先构建一个因果图,这是后续进行因果分析的基础。但是在现阶段笔者的知识看来,因果图的构建其实是一个比较主观的过程,但偏偏又是后续分析的基础,所以略感头疼。

在构建因果图前,我们有必要明白:什么是因果关系。通俗来说,当事件X发生时,必然导致事件Y的发生,我们就会认为:在这个过程中,事件X是因,事件Y是果。

但遗憾的是,现实世界中我们所面对的因果过程很难存在“必然导致”这么绝对的过程。我们更经常面对的情况是: 当事件X发生时,会以很大的概率p会导致事件Y的发生。这种情况下,我们之前关于因果关系的定义就可以认为是p = 100%情况下的特例。或者也可以说:事件X会影响事件Y的概率分布。

需要注意的是:后一个对因果关系的定义是比之前的定义在现实中有更强的实用价值的。以”死诸葛吓退活司马“的故事为例。看似诸葛亮利用了“司马懿惧怕活的诸葛亮”的因,推导出“魏军看到活的诸葛亮会撤退”的果是一个p=100%的因果推理过程,但在实际上存在“司马懿突发恶疾、猪突猛进”或”司马懿突然去世,新魏军将领猪突猛进“的小概率事件,因此这个因果推理过程并不是p=100%的,只是一个符合后一个因果推理过程的大概率过程。在概率论中,我们不能否认小概率事件发生的可能,这让几乎每一个现实中的事件都不是p=100%。
猪突猛进

这个概率学的定义基本上已经是我们对于因果关系的解释了,我们也可以换一个更概念化的方式理解:因果关系表示了由事件X推导出事件Y(X->Y)推理过程的鲁棒性。当该鲁棒性越高(也就是定义中的p越大)时,表明X与Y的因果关系更强。

接下来解释在因果推理中常用的do算子。

在上面的定义中,我们对于因果推理构成的讨论仅涉及两个事件X和Y的讨论。但真实的因果关系永远不会像定义那么简单,就像你学会了微积分的定义,真实的微积分题目永远可以让你感受到数学的险恶。在真实的因果关系中,我们常常避不开另一个东西:混杂因子confounder。 对混杂因子更具体的讨论可以见参考文献1,这里只是作为笔者的理解,所以思维跳跃维度可能比较大。

这里我们以探究感染新冠肺炎和死亡之间的因果关系为例(参考了文献1)。以感染新冠肺炎作为事件X,死亡作为事件Y,年龄作为事件Z,构建起的因果图如下:

在这里插入图片描述
我们这样理解这幅图:年龄Z会对感染新冠肺炎X的概率分布有影响(年龄大的人更容易感染);年龄Z对死亡的概率分布Y有影响(客观来说,年龄大的人更容易死亡);感染新馆肺炎X对死亡的概率分布Y有影响(新馆肺炎病毒:我就是危险又致命的反派角色!)。

一个很容易想到的探究X与Y之间因果关系的想法是:我们看一下在感染新冠肺炎的患者中的死亡率,用该死亡率代表两者之间的因果关系。 这是一个很直接的思路,其实在笔者看来也是反映因果关系的一种方式。如果对严谨度要求不高的情况下,笔者认为用这个概率来代表两者的因果关系是没有问题的。下面来说,为什么这种思路不太严谨。

假设我们现在得到的,新冠肺炎的患者中死亡率为5%。从概率学的角度,我们可以认为:大约每20个人中,就有一个患者死亡。但是在现实中呢?对于一个年轻人来说,他的死亡率可能是1%或者更低;对于一个老年人来说,他的死亡率可能是10%或更高。而这个社会中有70%的人是年轻人,30%的人是老年人,以这个社会为整理考虑新冠疫情的影响的话,它带给人们的死亡率应该是1% * 70% + 10% * 30% = 3.7%, 而实际得到的5%的死亡率其实是由于在患者中,老年人占比太大造成的

这里就产生一个矛盾啦:为什么我们会得到两个死亡率?到底哪个是正确的? 这里,笔者需要强调:两个死亡率都是正确的,只是看待问题的角度不一样。 5%的死亡率代表的角度是:从已有的新冠肺炎患者中随机抽取一个,他死亡的概率。 3.7%的死亡率代表的角度是:从这个社会所有的人中随机抽取一个,令他感染新冠肺炎,他死亡的概率。 这个差别用概率论的表示如下:

计算过程

这里我不做太多的其他解释,只强调一点:我们所定义的因果关系,是与第二个死亡率更吻合的。 因为这个死亡率是以”这个社会“作为背景进行考虑的,所以它更宏观,也更鲁棒。在一般的因果推理中,我们希望得到的因果关系(感染新冠肺炎X->死亡Y之间的因果关系)也是第二个死亡率象征的因果关系。

假设我们有感染新冠肺炎患者的数据,为了得到X->Y的因果关系,我们就需要进行类似上面进行的第二个死亡率计算的操作。如果一个事件Z,同时影响所研究的因果关系过程的因X和果Y,就将其称为混杂因子。 如果我们希望得到”纯净的“、更鲁棒的X->Y的因果关系,就需要去除混杂因子Z的影响。在研究X->的因果推理过程中,将混杂因子Z进行分类讨论,这就是do算子的实质,这也被称为后门调整。 或许叫后门调整的原因,就是因为混杂因子Z藏在事件X的后面,导致直接计算得到的结果(第一个死亡率)不准确,就像在背后捅了你一刀?

do算子的计算过程其实就是上面使用RCT之后的公式,这里面有三个其他的相关公式,就直接展示在下面了。

在这里插入图片描述

最后叠个buff趴:本文仅代表笔者自己的理解,不一定正确,可以作为科普看,但是真要研究的话建议找更专业的文章hhhhhhh

参考文献:
https://zhuanlan.zhihu.com/p/111306353
https://www.andrewheiss.com/blog/2020/02/25/closing-backdoors-dags/
https://wenku.baidu.com/view/baaf3dfc53e2524de518964bcf84b9d528ea2c89.html

  • 4
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值