因果推断(二):3个基本假设

总结

在这里插入图片描述

假设一:稳定单位处理值假设(SUTVA, Stable Unit Treatment Value Assumption)

别名是:一致性假设(Consistency)。

任何单位的潜在结果,不会因为分配给其他单位的处理而变化。并且对于每个单位,每个处理水平的不同形式或版本不会导致不同的潜在结果。

我理解有两层含义:

1. 单位(是指原子研究对象)之间具有独立性,不会产生相互作用:

 例如,T为是否吃药。假设A吃了药,B没有吃药。
 
 A不会受B影响,B也不会受A影响;

2. 一种处理只会导致一种结果:

例如,T为是否养猫。假设小花养了一只加菲猫(T=1),结果Y=开心,小草没有养猫(T=0),结果Y=不开心。

又来了个小明,他也养了猫(T=1),但是是养了一只美短,结果Y=不开心。那就不对了!

说明T定义的不好,此时同一种处理带来了两种完全不同的结果。
 

假设二:正值假设(Positivity)

有的文献里也称为 overlap、common support
确保对于任意背景变量X的unit集合,T=1和T=0的结果均存在。从而避免由于对给定的X,仅包含T=0的结果数据,使得T=1的结果无法估测。

换句话说:对于任意X值,每个对象接受干预或对照的概率都是正值。

例如,T是是否上大学,Y是收入水平。

对于相同背景(X)的人群,我们需要既有上大学的样本,也需要有没有上大学的样本,这样才能估计干预的因果效应。
 

假设三:条件独立性假设(Conditional Independence Assumption, CIA)

注意,它还有两个别的经常出现的名字:“Ignorability”, “无偏性假设”(Unconfoundeness Assumption)

假设内容是,给定背景变量X,处理(或干预)变量和结果变量之间的关系是独立的

第一层意思,如果两个病人有相同的背景变量,那么他们施加相同的处置时,他们的潜在结果应该是一样的。

第二层意思,具备相同变量的两个病人,他们的处置分配概率也应该相同。(Unconfoundeness Assumption)

例如,假设我们正在研究一种新的药物是否对降低高血压的效果有帮助。我们希望通过因果推断来确定这种药物的治疗效果。

在这个情境中,"ignorability" 假设意味着,给定一组特定的控制变量,药物的使用与结果(血压的降低效果)之间没有未建模的共同因素。即任何影响药物使用和结果的潜在因素,都已经通过控制变量的方式被考虑进来了。

再举个反例:考察药物对病人治疗效果的例子。

Y为康复率,W=1代表使用药物,X为年龄。

假设年轻和年老的病人,年轻的病人基本不会选择用药,只有年老的病人更倾向于选择用药。

则相当于W=1的治疗组以年老的病人为主,W=0的对照组以年轻的病人为主。

那么治疗组的治愈率会偏低,甚至低于对照组。从而得出药物对康复率具有副作用的错误结论。

Strong Ignorability = 正值假设 + 条件独立性假设

参考资料

[1] Yao L , Chu Z , Li S ,et al.A Survey on Causal Inference[J]. 2020.DOI:10.48550/arXiv.2002.02770.
[2]因果推断中的Ignorability假设: https://zhuanlan.zhihu.com/p/356635697

  • 16
    点赞
  • 27
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
因果推断是一个非常复杂的问题,需要根据具体的数据和研究问题来进行设计和实现。以下是一个简单的因果推断示例,用到了R语言中的causalimpact包。 假设我们想要研究一个广告活动对于销售额的影响。我们有两组数据,一组是广告活动开始前的销售额,另一组是广告活动开始后的销售额。我们想要通过因果推断来判断广告活动是否对销售额产生了显著的影响。 首先,我们需要加载causalimpact包,并将数据导入到R中: ```r library(causalimpact) # 导入数据 pre_advertising_sales <- c(10, 12, 8, 15, 11, 9) post_advertising_sales <- c(13, 15, 14, 17, 18, 16) ``` 接下来,我们需要创建一个时间序列对象,并指定广告活动的开始时间: ```r # 创建时间序列对象 pre_period <- ts(pre_advertising_sales, frequency = 1) post_period <- ts(post_advertising_sales, start = c(7, 1), frequency = 1) ``` 然后,我们可以使用causalimpact包中的函数来进行因果推断分析: ```r # 进行因果推断分析 impact <- causalImpact(pre_period, post_period) # 输出结果 summary(impact) ``` 这将输出一个包含因果效应和置信区间的结果摘要。我们可以使用这些结果来判断广告活动是否对销售额产生了显著的影响。 需要注意的是,因果推断是一个非常复杂的问题,需要考虑许多因素,如数据质量、控制变量等。因此,上述示例仅供参考,具体实现需要根据具体情况进行调整和优化。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值