因果论(四)——Rubin causal Model(RCM,潜在结果框架)和随机化试验

文章探讨了RCM(潜在结果框架)和因果图的关系,强调RCM在因果效应分析中的准确性。介绍了个体和平均因果效应的概念,以及在非随机化数据中遇到的挑战。倾向性得分和回归估计被提出作为处理混杂因素和估计平均因果效应的方法,其中倾向性得分是给定混杂变量下处理获得的概率,而回归估计则利用机器学习模型来建模结果的期望。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、RCM和因果图

RCM和因果图是等价的,但是RCM更加准确,因果图更加直观。

二、RCM基本概念

潜在结果指的是一个个体如果接受了某种处理会怎样,也就是指如果Z_{i}取某种值时(比如1或者0)对应结果Y_{i}取值会如何。我们用Z_{i}表示个体i的处理,Y_{i}表示个体i的所能观测到的结果变量,(Y_{i}(1),Y_{i}(0))表示个体i的潜在结果(假设对个体的处理只有0或1两种,更多处理时可以进行扩展为多种)。
个体因果效应:CE_{i} = Y_{i}(1)-Y_{i}(0)
显然这个个体因果效应是不能计算的,因为不能同时对个体i进行多种操作(我们只能对个体i做一种操作,比如吃药或者不吃药)。幸运的是我们可以通过随机化试验计算平均因果效应。
平均因果效应: ACE(Z\rightarrow Y) = E(Y(1)-Y(0))
接下来看一下这个公式怎么计算,使用 (Y(1),Y(0))表示整体的潜在结果,Z表示整体的取值,Y表示整体的观测结果
ACE(Z\rightarrow Y) = E(Y(1)-Y(0)) ---------1
=E(Y(1)) - E(Y(0)) --------------2
=E(Y(1)|Z=1)-E(Y(0)|Z=0) -----------3
=E(Y|Z=1)-E(Y|Z=0) --------------4
2式使用的是期望算法的线性展开。
3式用到了随机化,这里有一个强假设,用处理值为1的试验组的期望代替了所有数据潜在结果 Y_{i}(1)的期望,用处理值为0的对照组的期望代替了所有数据潜在结果 Y_{i}(0)的期望。
4式代表的为观测到的期望,所有最后计算转化为了观测数据的计算。
强假设:可以看出上面的计算有一个严重的问题,数据是否随机化的,我们的假设是否能够成立。
在实际中,很多数据都不是随机的,也就是上面的假设不能成立。比如:个体属性(性别),个体处理(是否吸烟),个体结果(是否的癌症)。可以看出性别对癌症是有影响的,不能直接通过吸烟的随机化试验结果代替所有人员吸烟的潜在结果。所以这里面性别是不可忽略的。那 我们的处理方法就是讲个体属性也纳入随机化试验,比如吸烟组同不吸烟组有着相同的男女比例构成。
我们用 X表示整体的属性(信息,混杂因素),则上式就转化成了下式:
ACE(Z\rightarrow Y) = E(Y(1)-Y(0)) ---------1
=E_{X}[E_{Y(1))}(Y(1)|X)] - E_{X}[E_{Y(0)}(Y(0)|X)] -----2
=E_{X}[E_{Y(1)}(Y(1)|X,Z=1)]-E_{X}[E_{Y_(0)}(Y(0)|X,Z=0)] --3
=E_{X}[E_{Y}(Y|X,Z=1)]-E_{X}[E_{Y}(Y|X,Z=0)] ---4
但是在实际处理中,仍然存在一些问题,通常是由于混杂因素的维度很高,控制相同取值的样本可能数量很少,导致期望估计不准确。针对这一问题,研究者们提出了多种解决方案.常见的方法有基于倾向性得分的估计方法、基于回归的估计方法以及两者相结合的方法。
三、倾向性得分估计
倾向性得分其实是一个降维的过程。
倾向性得分(propensity score )指的是给定混杂变量X的情况下获得处理Z=1的概率,即P(Z=1|X),可以使用机器学 习模型或者概率进行建模。然后根据倾向性得分估计平均因果效应,可以采用分层加权或者逆概加权。
四、回归估计
其思想是 使用机器学习模型建模给定处理Z和混杂变量Z时结果Y的期望,即E(Y|X,Z),然后用这回归模型进行干预,即可得到平均因果效应的估计值。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值