因果关系推断与机器学习

    • 因果关系定义

设X和Y是两个随机变量。定义X是Y的因,即因果关系X→Y存在,当且仅当Y的取值一定会随X的取值变化而发生变化。

两个变量X、Y之间有相关性往往不是我们能判断它们之间有因果关系的依据。其中包括三种情况:X是Y的因、X是Y的果、X与Y有共同原因(common cause)。对于第三种情况,我们把这种不是因果关系的相关性叫作虚假相关(spurious correlation)。

机器学习模型是强大的概率分布拟合工具,它们可以从观察性数据(observational data)中学习到各种各样的概率分布,但无法定义因果关系

    • 结构因果模型

链状图中Z是中介变量(mediator):

同时影响处理变量和结果变量(X和Y)的变量称为混淆变量(confounders或者confounding variable)。此时X和Y之间存在相关性,但它们之间不存在因果关系。

对撞因子(collider):X和Y都是Z的因,此时X和Y之间既没有相关性,也不存在因果关系。

因果推断在蚂蚁风控场景中的应用

因果森林 Causal forests

Causal forests 是一种机器学习方法,主要用于估计因果效应。它是决策树算法的一个扩展,旨在处理因果推断问题。这种方法结合了随机森林(Random Forests)和倾向得分估计(Propensity Score Estimation)的思想,以解决观察性数据中因果效应的识别和估计问题。

在因果推断中,我们通常关心的是某项干预(例如:药物治疗)对结果(例如:患者康复情况)的影响。然而,真实世界的数据往往是观察性的而非随机实验,这就需要我们通过统计方法来识别和估计因果效应。Causal forests 就是利用一系列决策树对不同个体的因果效应进行非线性和交互效应建模,并且可以处理高维协变量和复杂的数据结构。

具体而言,Causal forests 包括两部分:

  1. 倾向得分森林(Propensity Score Forest):用于预测个体接受某种干预的概率,以此来匹配或分层观测数据,以模拟接近于随机实验的情景。
  2. 因果效应森林(Causal Effect Forest):基于匹配或分层后的数据,使用决策树来估计每个个体的因果效应
  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值