因果系列文章(4)——拨开混杂的迷雾

本文深入探讨了因果分析中的混杂问题,通过实例解释了混杂因子如何影响因果关系的判断。文章介绍了d-分离概念,阐述了如何通过条件独立性消除混杂,以及后门准则在确定因果关系中的作用。此外,还警告了仅依赖传统混杂因子定义可能产生的错误判断,强调理解因果结构的重要性。
摘要由CSDN通过智能技术生成

本节沿袭上一节的内容,继续学习混杂、阻断、前门/后门路径等概念。

混杂

抽烟的人容易导致肺癌,抽烟的人也容易出现黄手指。因为抽烟这个“共因”,“黄手指”和“肺癌”产生了关联,我们不难发现,手指黄的人很多都容易患肺癌。但是我们不能说,黄手指会导致肺癌,它俩并没有因果关系。这个“共因”也被称之为“混杂因子”(confounder)。在这个例子中,“抽烟”就是“黄手指”和“肺癌”的混杂因子,它让“黄手指”和“肺癌”出现了一种“伪相关”,这种伪相关也被称为“偏倚”(bias)。

图1:“抽烟”作为“黄手指”和“肺癌”的混杂因子

在本专题第一篇文章中介绍的巧克力与诺贝尔奖的例子,也是因为出现了混杂因子,因为某些共因,让巧克力销量和诺贝尔奖产生了关联,但巧克力销量不是导致诺贝尔奖的原因。

更复杂一些、也更常见一些的情形,是混杂因子造成的伪相关关系,和真正的因果效应关系,混合在一起,这便是“混杂”(confounding)的情形。

图2给出了一种最基本的混杂情形。真正的因果效应 A→Y 和叉接合 A←L→Y 诱导的 A 和 Y 之间的伪相关混合在一起。以新冠病毒与死亡率之间的关系为例,感染新冠病毒无疑会大大提高死亡率。但是这样的因果关系中,非常可能存在混杂因子。比如年龄:年轻的人免疫力更好,因此感染新冠病毒的几率也相对较低,死亡率也相对较低;年纪大的人抵抗力差,感染风险高,同时年纪大的人死亡率本身就高。因此“年龄”成为了“感染新冠病毒”与“死亡率”之间关系的混杂因子。所以我们要弄清新冠病毒到底与死亡率的高低具有怎样的关系,我们必须考虑并排除混杂的影响,换句话说,因果推理的一大目标就是尽量消除混杂带来的偏倚(也就是那些非因果的关联关系),找出真正的因果关系。

图2:混杂的基本形式


为了引入分析混杂的方法,首先我们一起学习阻断和d-分离的概念。

阻断与条件独立

回顾上一节最后学习的三种接合类型:链接合、叉接合、对撞接合。我们已经得到了这样的结论:

  • 对于链式和叉式接合,节点 A 和 C 是相关的,链式接合是因为信息从 A 流到了 C ,叉式接合中 A 和 C 本没有相关性,而是因为有了 B 这个混杂因子而让 A 和 C 有了相关性;
  • 对于对撞接合,节点 A 和 C 是相互独立的

图3:三种接合类型

在本节中,我们继续延伸有关相关性的分析。我们可以通过“以某个变量为条件”的方式得出其它节点之间的条件独立性。具体来说:

  • 对于链式接合和叉式接合,通过“以中间变量 B 为条件”(conditioning on variable B ),也即给定 B 的值,比如指定 B=1 或者指定 B=0 ,那么 A 和 C 之间路径被阻断(blocking)。
  • 对于对撞接合,通过“以中间变量 B 为条件”,A 和 C 之间原本被阻断的路径反而被打开,即A 和 C 之间产生了相关性。

这里所说的“以某个变量为条件”的意思,就是指定某个变量的值。比如“以年龄这个变量为条件”(conditioning on age),意思就是说我们只看“年龄=1”或者只看“年龄=0”的那些数据。

下面以具体的例子来解释以上两个结论。首先,对于链式接合,我们假设感染新冠病毒会造成肺部发炎,而肺炎会进一步导致发烧或干咳等临床症状。这个过程可以用如下的链式接合表示:

图3:感染新冠病毒引发肺炎并进一步引发临床症状的链式接合

此时,“感染新冠病毒”和“临床症状”是(边缘

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值