因果关系发现：推开认知世界的大门-CSDN博客

本文链接：https://blog.csdn.net/mlorworld/article/details/123865919

本文探讨了因果关系发现的三个层次，强调了干预和反事实推理的重要性。通过辛普森悖论举例说明了仅依赖相关性进行因果推断的局限性。文章介绍了因果发现的工具，如因果图和结构因果模型，并阐述了如何运用这些工具进行因果发现，包括基于约束和分数的方法。最后，强调了因果推理在机器学习和多个领域的应用价值。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在上一篇文章(灵魂三问：因果推断)中，我们介绍了什么是因果推断，为什么要以及如何进行因果推断。本文将围绕如下内容介绍如何进行因果关系发现研究：

因果发现的三个层级
因果发现的重要工具
因果发现的具体方法

（本文共4137字，预计阅读时长10分钟）

先从一组数据说起：为了研究某个治疗方案是否对某疾病有疗效，研究人员安排了治疗组和控制组进行实验，每组40人。治疗组将严格按照方案进行治疗，而控制组的人只能得到一些安慰剂。在实验进行一段时间后，得到两组病人的生存率，如图所示。

在这里插入图片描述

人群总体：50%（治疗组生存率）＞40% （控制组生存率）
男性：60%（治疗组生存率）＜70% （控制组生存率）
女性：20%（治疗组生存率）＜30% （控制组生存率）

上面的数据给出一个令人迷惑的结论：从人群总体的角度，我们发现治疗组的生存率要高于控制组。但当区分性别来看，会完全颠覆之前的结论，即无论男性还是女性，治疗组的生存率均低于控制组。

你是不是也有一点糊涂？别担心，这就是困扰了统计学家60多年的著名的辛普森悖论，是因为仅通过学习某个条件概率，就去回答因果性问题而产生的。

一、认知因果的三个层次

图灵奖得主Judea Pearl提出，认知因果包含三个层级 ¹ 。通过观察发现事物之间的关联只是第一个层级；在这之上，还需要对过程进行有目的的干预，才能去回答“如果进行了治疗，生存率是否会提高的问题”。认知因果的第三个层级是反事实推理，回答“假如没有…，那么…“这样的问题。

传统的机器学习最擅长做的是根据数据中呈现出来的相关性学习函数 $f\left({Y|X}_1,\ldots,X_m\right)$ 去拟合条件概率 $P\left(Y|X_1,\ldots,X_m\right)$ 。这种机器学习模型只学习到了认知因果的第一个层次即关联。

干预，是对所有可能影响因果关系的因子进行控制。如果不使用严格的控制实验，仅通过数据进行干预，需要引入由do算子定义的干预分布，直观地描述对 $X_i$ 进行有意图干预时，其他变量概率分布的变化情况 ² 。例如： $P(Y|do\left(X\right)=a)$ 描述了当 $X$ 取值为 $a$ 时， $Y$ 所对应的分布。写成如下形式：
$P\left(X_1,\ldots{,X}_{i-1,}X_{i+1}\ldots,X_n\middle| d o\left(X_i\right)=a\right)=\frac{P\left(X_1,\ldots,X_n\right)}{P\left(X_i\middle|{pa}_i\right)}I(X_i=a)$
其中， ${pa}_i$ 表示所有产生 $X_i$ 的原因； $I(X_i=a)$