因果推断系列--1.入门介绍篇

标题因果推断介绍

因果推断是一种研究因果关系的方法,旨在确定一个因素是如何导致另一个因素或事件发生的。在统计学和机器学习领域,因果推断是一种从数据中推断因果关系的方法。

传统的统计分析方法主要关注相关性,即统计两个变量之间的关系,并通过相关系数或回归分析来衡量它们之间的相关性。然而,仅通过相关性分析无法确定这种关系是否具有因果性。因为相关性只是表明两个变量之间存在某种关联,而不一定暗示其中一个变量是另一个变量的原因。

因果推断旨在通过利用随机性试验或者观察到的数据,来确定两个事件或变量之间的因果关系。它的目标是通过控制其他可能的影响因素,确定某个因素对于另一个因素的影响。因果推断的核心观点是利用因果关系对未观察到的数据进行预测,而不仅仅是对已观察到的数据进行解释。

在因果推断中,常用的方法包括随机对照试验、工具变量法、因果图和潜在因果模型等。随机对照试验是通过随机将受试者分为实验组和对照组,来评估某个因素对一个结果的因果影响。工具变量法是通过寻找一个与被解释变量的影响相关但与其他潜在影响因素无关的变量,来推断因果关系。因果图则可以可视化变量之间的因果关系,帮助研究者理解和推断因果结构。潜在因果模型是一种建立因果关系模型的方法,利用概率图模型来表示潜在因果关系结构。

因果推断在许多领域具有重要的应用,包括医学研究、社会科学、经济学、公共政策等。通过进行因果推断分析,我们可以更准确地理解事件或变量之间的因果联系,有助于制定更有效的干预措施和决策。

需要注意的是,因果推断需要精确的问题设定、合适的数据收集和适当的统计方法。同时,在进行因果推断分析时,我们还需要意识到潜在的偏倚和限制,并采取相应的方法来解决或控制这些问题。

总之,因果推断是一种研究因果关系的方法,通过利用随机性试验或观察到的数据,确定事件或变量之间的因果关系。它在理解和解释现实世界中的复杂因果关系方面具有重要的应用价值。

概念介绍

1.相关(correlation)≠因果(causation)

e.g.:正常吃早饭的女孩体重比不正常吃的更轻≠>吃早饭可以减肥
原因是吃早饭和减体重之间存在混淆变量(confounder):吃早饭的可以生活更规律,坚持运动等
在这里插入图片描述

2.反事实结果(counterfactual)

一个团长在同一时刻只能有一个策略(Treatment),观察到该策略(Treatment)下团长的结果,不可能同时得到另一个策略(Treatment)对应的结果

3.因果效应(Treatment Effect)定义

不同策略结果的差异,ATE、ATT、CATE、ITE定义
给定数据集,N为样本数量;计算对应因果效应
detail
整体层次,策略效果称作平均策略效果(Average Treatment Effect (ATE):ATE =E[Y(W=1)|w] - E[Y(W=0|w)],每一个个体进行潜在结果的相减后求期望
某策略组层次,策略效果称作策略组的平均策略效果(Average Treatment effect on the Treated group (ATT))
某子群层次,即整体的某一个子集上的策略效果,称为条件平均效果(Conditional Average Treatment Effect (CATE))
个体层次,称为个体策略效果(Individual Treatment Effect (ITE))

4.Definitions

介绍论文中对应符号及其含义
detail
Unit:样本单元
Treatment:针对Unit可执行的策略,st:W表示策略
Outcome:Unit在策略下的结果
Potential outcome:潜在结果=>Y(W=w),对于任何一个样本,任何一个策略都存在一个潜在结果
Observed outcome:观测结果,即可观测到的结果,也称为真实结果,是潜在结果的一种实际表现。使用YF来表示观测结果,如果一个样本被实施了策略w ,那么它的的观测结果表示为:YF = Y(W=w)
Counterfactual outcome:反事实结果也是潜在结果的一种,可以简单理解为潜在结果=可观测结果+反事实结果
如果一个样本被实施了策略 w ,那么它的的反事实结果表示为: YCF=Y(W=w’),其中 w’ ≠w。如果只有两个策略,那么反事情结果: YCF = Y(W=1-w)
pre-treatment variables:不受策略所影响的特征成为策略前特征,这个比较好理解,比如人的年龄,性别等等;也称为环境变量
post-treatment variables:与策略前特征相对应,策略后特征就是受策略影响的特征变量,举个例子就是患者服药之后的身体理化特征
背景变量:样本自身的全部特征数据,包括混淆在内的

5.Example 4 overall concept

问题:评估不同的药理及方案对疾病的治疗效果
数据:利用已有观测数据(已有记录的治疗方案对病人的治疗及对应的临床表现)、治疗记录数据
难点:反事实数据,病人在其他治疗方案的潜在结果如何,无从得知
方案:利用因果推断预测每一个样本(病人)对应不同方案下的潜在结果,最终计算那个方案更优
符号定义:表示治疗方案(treatment)、表示样本单元i应用治疗方案1;
Y:能观察结果;表示样本单元i在治疗方案1下的潜在结果;年龄、性别、其他人口信息为策略前特征;临床表现、药物反应为策略后特征

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Xuxixixixixixix

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值