因果推理“三问”:是什么?为什么需要?如何使用?

译者:AI研习社(听风1996

双语原文链接:Causal Inference: What, Why, and How


作为一名经济学博士,我致力于寻找某些变量之间的因果关系,用来完成我的论文。因果关系强大到可以让人们有足够的信心去做决策、防止损失、求解最优解等。在本文中,我将讨论什么是因果关系,为什么需要发现因果关系,以及进行因果推理的常用技巧。

1. 什么是因果关系?

因果关系描述的是两个变量之间的关系,即一个变量如何诱发另一个变量的发生。它比相关关系要强得多,因为相关关系只是描述两个变量之间的共同运动模式。通过绘制散点图,可以很容易地观察到两个连续变量的相关性。对于分类变量,我们可以绘制柱状图来观察其关系。要知道两个连续变量之间的确切相关性,我们可以使用皮尔逊相关公式。皮尔逊(Pearson)的相关性介于-1和1之间,绝对值越大表示相关性越强。正相关意味着两个变量在同一方向共同运动,反之亦然。

但对于因果关系,要把握的关系就要复杂得多。为了知道变量A是否引起了变量B的发生,即干预A是否引起了结果B,我们需要保持所有其他变量不变,以隔离和量化干预的效果。我们需要控制的其他变量称为混杂变量,即与干预和结果都相关的变量:

有关混淆变量的例子

在上图中,我举了一个混淆变量,其中年龄与戒烟率和致死率都是正相关的。年龄越大,死亡率越高,但吸烟率越低。如果我们在估计吸烟对死亡率的影响时没有控制年龄,我们可能会观察到吸烟会减少死亡率这样荒谬结果。我们不能在这里得出因果关系,因为我们没有控制所有混杂变量。关于这个例子的更多细节,你可以阅读我讨论 "辛普森悖论 "的文章:

所谓的“辛普森悖论”

在得出因果效应的结论时,我们需要记住的另一个因素是选择偏差。为了隔离治疗效果,我们需要确保治疗组单位是在人群中随机选择的。这样,我们在治疗后观察到的差异不是因为其他因素,而是因为治疗。举个例子,当一家超市想估计提供优惠券对提高整体销售额的影响时。如果超市只把优惠券传递给在店里购物的顾客(干预组),发现他们比没有收到优惠券的顾客(对

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值