数据的Bias

本文探讨了数据中由于因果关系、混杂因素和选择偏差导致的变量关联,并介绍了消除这些偏差的方法,如后门调整、匹配、倾向性得分和IPW等。这些技术在因果效应估计中至关重要,旨在确保模型预测的稳定性和准确性,避免因数据偏见而产生的虚假相关性。
摘要由CSDN通过智能技术生成

通常,引发变量之间关联的原因,可以被归结为三类。

第一类是直接由因果关系引起的,在这类关联中,原因变量与结果变量之间存在直接的因果关系,此时的关联性是具有稳定性和解释性的;

第二类是由 Confounding 引起的,由于两个变量存在未观测的共因,于是产生了伪相关性,关于 Confounding 可以参考我之前的文章《【因果系列】隐藏在数据中的 Bias》。

第三类是由 Selection Bias 引起的,由于两个变量的共同结果被控制住,使得只有部分数据被观测到,而产生了伪相关性,详细可以参考我之前的文章《【因果系列】Selection Bias:消失的样本带来的麻烦》

除去第一类关联性,第二类、第三类关联性都是我们不要的,于是我们就需要将这两类伪相关性消除。在因果效应估计中,一个重要的任务就是消除 Bias ,而这一点与我们需要的不谋而合,这也催生了稳定学习。

Bias 会造成什么问题

以下图的因果图为例,在因果效应估计中,主要的任务是估计治疗T对结果Y的因果效应,关键是消除数据中存在的 Bias X  。

通常,数据中存在的 Bias 会导致不同变量间存在伪相关性,如在一个动物图像分类任务中,如果“狗”和“草地”常常一起出现,“草地”就极有可能被模型识别为“狗”的特征,从而导致模型预测不稳定,

这是因为,“狗”和“草地”的数据在数据集中占大多数,从而产生 Bias ,导致“草地”与“狗”这个标签被绑定在一起,产生虚假的相关性

Bias 的消除

既然 Bias 有这么大的影响,那么我们应该如何消除这种 Bias 呢?

如之前的文章所说的,在因果推断中,有很多消除 Bias 的方法,这里列举几种方法。

后门调整

一种消除 Bias 的方式是通过后门调整,在因果图已知的情况下,我们可以通过后门准则来判断需要进行后门调整的变量集X :

  • 所有T​​​和​​​​Y之间的伪路径(即存在箭头指向 ​​​ 的路径)被 ​​​ 所阻断;
  • ​​​ X不包含​ 的后代结点。

通过后门调整公式,我们可以对 Bias 进行消除

 

匹配

消除 Bias 的一个目标是使得控制组和治疗组的 Confounders 数据分布一直,于是匹配的思想就是每次从控制组和治疗组中找到一对 Confounder 取值相等或者相近的样本

 

但匹配存在的问题是困难会造成样本的浪费,特别是在高维数据时,最后匹配的到的样本量可能不足以训练模型。

倾向性得分

倾向性得分(Propensity Score)是 Donald Rubin 提出的一种衡量样本分配水平的指标,是指具有共同协变量值得子样本集得个体水平治疗分配概率得平均值,我们可以直接通过衡量倾向性得分来将样本相匹配

 

倾向性得分将匹配中距离的衡量转换到标量层面,但依然会有部分数据会被浪费,且倾向性得分要求是估计正确的

IPW

IPW 则提供了一种新的思路,通过样本重加权(Sample Re-weighted)的方式,对每个样本赋予一个权重,使得治疗组和控制组中的其他协变量分布相同,而样本的权重是通过倾向性得分计算得到

DCB

DCB(Directly Confounder Balancing)也是一种基于样本重加权的方法,但相比于 IPW ,DCB 则采用一种更加激进的方式来消除 Bias 。与 IPW 相同, DCB 也对控制组的样本进行样本重加权,但 DCB 采用矩(moment)来衡量样本的分布是否相同。当加权后控制组的分布与治疗组的相同,则认为这组权重能将 Bias 消除。DCB 的一个好处是权重可以直接通过优化得到。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值