因果推理初探

参考链接

  1. 因果推理初探系列
    评价:小白友好!讲的非常详细!

背景

近期在看结构化因果相关的论文,没有基础看的云里雾里,想着大致了解一下因果推断相关知识,顺手整理了本博客,主要是对于参考链接中系列的个人理解。

因果关系

虽然深度学习是现阶段最常用的方法之一,但是要知道它并不是万能的。深度学习需要大量的数据以及调参,而且仅仅是进行“曲线拟合”。因果关系就是目前深度学习训练出的模型中无法得到的信息之一。

了解因果关系对于深度学习的特征选取也具有很重要的意义。将存在“因”关系的特征加入深度学习模型的学习当中,一般都可以改善结果;而将不存在“因”关系的特征加入深度学习模型的学习当中,一般不会对结果进行改善,甚至可能会导致引入的额外特征与结果建立错误的关系导致判断出错。

《The Book of Why: The New Science of Cause and Effect》
在这本书中,Pearl将因果关系分为三个层次(他称之为“因果关系之梯”)。自底到顶分别是:关联、干预、反事实推理。
最底层的是关联(Association),也就是我们通常意义下所认识的深度学习在做的事情,通过观察到的数据找出变量之间的关联性。这无法得出事件互相影响的方向,只知道两者相关,比如我们知道事件A发生时,事件B也发生,但我们并不能挖掘出,是不是因为事件A的发生导致了事件B的发生。
第二层级是干预(Intervention),也就是我们希望知道,当我们改变事件A时,事件B是否会跟着随之改变。
最高层级是反事实(Conterfactuals),也可以理解为“执果索因”,也就是我们希望知道,如果我们想让事件B发生某种变化时,我们能否通过改变事件A来实现。

研究因果关系最大的一个目标,就是找出事物之间真正的因果关系,去掉那些混杂的伪因果关系。

贝叶斯网络

toy example

基本结构:有向无环图

作用:用图形化的方式来表达事件之间的相互依赖关系的方法

理解:贝叶斯网络仍然没有因果的关系(箭头代表假的因果方向),说到底,贝叶斯网络也只是一张“巨大的概率表的简洁形式”。

因果关系基本概念

混杂

在这里插入图片描述
A事件同时导致B和C的发生,会导致B与C在统计学意义上具有相关关系。这个共因A也被称之为“混杂因子”(confounder)
A导致B与C之间出现的“伪相关”关系称之为“偏倚”(bias)
在这里插入图片描述
混杂(confounding):伪相关关系和真正的因果关系混在一起的复杂情形

因果推理的一大目标就是尽量消除混杂带来的偏倚(也就是那些非因果的关联关系),找出真正的因果关系

阻断与条件独立

阻断:消除两个事件之间的关联,断掉两个事件之间的路径

一般通过“以某个变量为条件”(也就是将某个变量固定下来是某个值,只看这个变量为固定值的样本)来得出其他节点之间的独立性。

d-分离法则
以上的分析在因果关联领域有一个著名的法则,被称为d-分离法则。
d-分离的全称是有向分离(directional separation),是一种判断变量是否条件独立的方法。
如果节点C阻断了A和B之间的每条路径,那么我们说A和B被C节点d-分离了。

  1. 如果一条路径中不以任何一个节点为条件,当且仅当该条路径中有两条箭头在某个变量处对撞时,则该条路径被阻断(该变量称为这条路径的对撞子)。
  2. 如果一条路径包含一个非对撞子(noncollider),当以它为条件时,这条路径被阻断。
  3. 当以一个对撞子为条件时,该路径不会被阻断。
  4. 当以一个对撞子的子孙为条件时,该路径也不会被阻断。

后门准则
消除“混杂”,消除“伪相关”、找出真正因果关系的方法

后门路径:连接A和B但是箭头不从A出发的路径,比如A←Y→B
前门路径:连接A和B且箭头从A出发的路径,比如A →Y→B

后门准则:如果有足够的数据能够将A和B之间的所有后门路径阻断,那么我们就可以识别A和B之间所有的因果关系

混杂因子:能够阻断因果变量之间所有后门路径的变量
更精确的被定义如下:
从结构角度,若变量Y能够使得A与B的相关性发生变化,则Y为A和B之间的混杂因子;
从传统角度,若Y与A相关;确定A时不改变Y与B的相关性;且Y不再A到B的因果路径之中,那么Y为A和B之间的混杂因子。

有以下几点需要进行强调:

  1. 混杂是一个绝对的概念,混杂因子则是一个相对的概念。混杂要么存在要么不存在,但某个变量是不是混杂因子,这个不好说,我们关心的是以哪个变量为条件能够消除混杂。
  2. 以某个变量为条件,我们可以消除混杂,但这个变量不一定是引起混杂的那个共因。
  3. 用传统定义的三个条件来判断混杂因子并不百分之百正确。在某些不存在混杂的情况下,三个条件可能也都能被某个变量满足。但此时并不存在真正混杂因子,我们也不需要以该变量为条件,否则会引发选择偏倚。

干预

结构因果模型

定义
在这里插入图片描述
SCM =(U,V,f)
U为外生变量,因不在模型研究的范围内;V为内生变量,至少是一个外生变量的后代;f为内生变量赋值,建立父节点与子节点之间的关系

干预

确定一个变量的值,限制该变量随其他自然变量而变化的自然趋势

与以条件为变量的区别
在这里插入图片描述在这里插入图片描述

干预(intervention)和以变量为条件(conditioning on)有着本质的区别,前者改变看世界的角度,而后者改变世界本身。
与以某个变量为条件不同,干预一个变量会导致一种完全不同的相关性关系,以某个变量为条件可以完全从数据中获得,但干预却会影响图模型结构的变化。

在图模型当中,干预的操作将删除所有指向该变量的边;而以变量为条件的操作不会改变图结构。

例子
辛普森悖论:分组看相对频率与合并起来看相对频率出现反转的例子。
以辛普森悖论为例,从概率的角度来看干预和以变量为条件的不同。
在这里插入图片描述
在本例当中,辛普森悖论为,不管男女服药后不发病的概率都更高,然而在总人群中不服药后不发病的概率更高。
其实这就是一个简单的混杂问题:男性和女性服药与不服药的比例是不同的,男性服药的人数远远小于不服药的人数,而女性服药的人数远远大于不服药的人数,因此性别是服用药物和心脏病发作的一个混杂因子。
在这里插入图片描述
为了找出这种药物在人群中到底是有效还是有害,我们对服用药物进行干预,使得所有人要么都服用药物即do(X=1),要么都不服用药物即do(X=0)。
在这里插入图片描述
首先要理解:

  1. 经过干预后Z的边缘分布不变,即服用药物与否对于性别的分布不影响
  2. 经过干预后以X和Z为条件的条件概率是不变的,即服用药物确定后,服用药物+性别对心脏病发作的综合影响不变

假设修改后的概率分布为 P m P_m Pm
那么有
在这里插入图片描述
P ( Y = y │ X = x ) = ∑ z P ( Y = y , Z = z │ X = x ) = ∑ z P ( Y = y ∣ Z = z , X = x ) P ( Z = z ∣ X = x ) P(Y=y│X=x)=∑_zP(Y=y,Z=z│X=x) =∑_zP(Y=y|Z=z,X=x)P(Z=z|X=x) P(Y=yX=x)=zP(Y=y,Z=zX=x)=zP(Y=yZ=z,X=x)P(Z=zX=x)

可以看出这两者的区别,干预后的条件概率去掉了X对于Z的影响

计算后可以得到
在这里插入图片描述

  • 4
    点赞
  • 37
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值