【Python实战因果推断】57_因果推理概论7

目录

The Bias Equation

A Visual Guide to Bias


The Bias Equation

既然你现在理解了为何样本平均值可能与它试图估计的平均潜在结果存在差异,我们不妨更详细地探究为什么平均差值通常无法恢复出ATE(平均处理效应)。

在销售的例子中,处理与结果之间的关联性由E[Y|T=1] - E[Y|T=0]来衡量。这是有促销活动的商家平均销售量减去无促销活动商家的平均销售量。另一方面,因果关系则由E[Y_1-Y_0](这是E[Y|do(t)=1] - E[Y|do(t)=0]的缩写)来衡量。

为了理解它们为何以及如何不同,让我们将观察到的结果替换为关联性度量E[Y|T=1] - E[Y|T=0]中的潜在结果。对于被处理组,观察到的结果是Y1;而对于未处理组,观察到的结果是Y0:

E[Y|T=1]-E[Y|T=0]=E[Y_1|T=1]-E[Y_0|T=0]

现在,让我们加上并减去E[Y0|T=1],这是一个反事实结果,它告诉我们如果被处理者没有接受处理,其结果会是什么:

E[Y|T=1]-E[Y|T=0]=E[Y_1|T=1]-E[Y_0|T=0]+E[Y_0|T=1]-E[Y_0|T=1]

最后,你可以重新排列这些项,并合并一些期望值:

E[Y|T=1]-E[Y|T=0]=\underbrace{E[Y_1-Y_0|T=1]}_{ATT}+\underbrace{\{E[Y_0|T=1]-E[Y_0|T=0]\}}_{BIAS}

这段简单的数学涵盖了你在因果问题上会遇到的所有问题。为了更好地理解它,让我们分解一下它的含义。

首先,这个等式告诉我们为什么相关性并不等于因果关系。正如你所见,相关性等于对被处理者的处理效应加上一个偏差项。这个偏差由处理组和对照组在无论是否接受处理的情况下有何不同所给出,这体现在Y0的差异上。现在你可以解释为什么当有人告诉你价格削减能大幅度提升销量时,你可能会产生怀疑。在这个销售例子中,你认为E\bigl[Y_{0}\bigr|T=0\bigr]<E\bigl[Y_{0}\bigr|T=1\bigr]也就是说,有能力进行降价的企业即便不促销,销量也往往更高。

为什么会这样?你会研究混杂因素(confounding)。现在,你可以认为偏差的出现是因为许多你无法观测到的因素正在与处理一起变化。因此,有促销和无促销的企业不仅仅在是否进行促销这一点上有区别,在规模、位置、选择促销的周次、管理风格、所在城市,以及其他很多方面都有所不同。为了确定价格削减能增加多少销量,你需要有促销和无促销的企业在平均意义上彼此相似。换句话说,处理组和对照组需要具有可比性(exchangeable)。

A Visual Guide to Bias

你不必仅依赖数学和直觉来讨论可比性(exchangeability)。在我们的例子中,你甚至可以通过绘制不同处理组间变量与结果之间的关系图来检查它们是否可比。如果你以业务规模(avg_week_sales衡量)为横轴,以每周销售量(weekly_amount_sold)为纵轴,并用不同的颜色表示是否进行促销(is_on_sale),你会发现进行促销的业务(被处理组)在图表的右侧更加集中,这意味着它们通常是更大的企业。也就是说,处理组和未处理组在平衡性上存在差异。

这是非常有力的证据,证明你的假设 E[Y_0|T=1]>E[Y_0|T=0]是正确的。存在一种向上的偏差,因为实施降价的企业数量(T=1)以及这些企业在没有促销时的预期结果(Y0)都会随着企业规模的增大而提高。

如果你听说过辛普森悖论(Simpson’s Paradox),这种偏差就像是一个不那么极端的版本。在辛普森悖论中,两个变量之间的关系最初是正向的,但一旦调整第三个变量后,关系变成了负向的。在我们的案例中,偏差并没有极端到改变关联性的符号。这里,你从一个初始情况开始,即价格削减与销量之间的关联性过高,而控制第三个变量则会减少这种关联性的大小。如果你聚焦于相同规模的企业内部,价格削减与销量之间的关系会减弱,但仍保持正向。

再次强调,这一点非常重要,我认为值得再深入讲解一遍,这次会配合一些图像。虽然这些图像并不现实,但它们很好地解释了偏差的问题。假设你有一个表示企业规模的变量。如果将销售量与规模绘制成图,你会看到一个上升的趋势,其中规模越大,企业销售越多。接下来,根据处理情况给点着色:白色点表示降价的企业,黑色点表示没有降价的企业。如果你简单地比较处理组和未处理组企业的平均销售量,你将得到以下结果:

请注意,两组间销售量的差异(并且很可能确实存在)可能由两个原因造成:

  1. 处理效应。因降价而导致的销售量增加。
  2. 业务规模规模较大的企业既能够卖出更多商品,也能够进行更多的降价促销。这种处理组和对照组间的差异并非由降价引起,而是源于企业本身的规模。

因果推断的挑战在于区分这两种原因。

对比一下,如果我们将所有可能的结果(包括反事实结果,用三角形表示)加入图中,情况会有所不同。个体处理效应是个体结果与其在另一种处理条件下理论上的结果之间的差值。你想要估计的平均处理效应是每个个体单元潜在结果Y_{1}-Y_{0}的平均差。这些个体间的差异远小于之前图中处理组和对照组之间的差异。原因在于偏倚,如右侧的图所示:

你可以通过设定所有单位都不接受处理来表示这种偏倚。在这种情况下,你只保留了Y0这一种潜在结果。然后,你可以观察在没有接受处理的情况下,处理组和对照组在这类潜在结果上是如何不同的。如果它们之间存在差异,那么除了处理本身之外,还有其他因素导致处理组和对照组的不同。这正是我一直在讨论的偏倚。它掩盖了真实的处理效应。

  • 14
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
贝叶斯因果推断是一种使用贝叶斯网络(Bayesian Network)进行因果关系推断的方法。贝叶斯网络是一种概率图模型,用于表示变量之间的依赖关系和因果关系。在贝叶斯网络中,节点表示变量,边表示变量之间的依赖关系。通过观察节点的状态,可以推断其他节点的状态。 在Python中,可以使用PyMC3库来构建贝叶斯网络模型。《Python贝叶斯分析》这本书从实际应用和编写程序的角度解释了贝叶斯统计的关键概念,并介绍了如何使用PyMC3来构建概率模型。这本书不要求读者具备生物学方面的基础知识,但需要读者具备使用Python编写程序的经验\[1\]。 贝叶斯因果推断的一个挑战是数据的结构与贝叶斯网络的独立性不一致。贝叶斯网络的推断算法旨在从概率中推断因果关系,与任何实验无关。因此,贝叶斯网络的推断是基于概率观察数据进行的。此外,贝叶斯网络的推断是从特定前提中得出一般性结论,与理论假设的表述无关。这是因为贝叶斯网络的推断是演绎的,而不是从因果假设的表述中得出的\[3\]。 因此,Python中的贝叶斯因果推断可以通过构建贝叶斯网络模型,并使用PyMC3库进行推断。这种方法可以帮助我们从观察数据中推断因果关系,并进行因果推断分析。 #### 引用[.reference_title] - *1* [Python贝叶斯分析 PDF 完整原版](https://blog.csdn.net/weixin_39850143/article/details/110996376)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control,239^v3^insert_chatgpt"}} ] [.reference_item] - *2* [数学推导+纯Python实现机器学习算法12:贝叶斯网络](https://blog.csdn.net/weixin_37737254/article/details/102920363)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control,239^v3^insert_chatgpt"}} ] [.reference_item] - *3* [贝叶斯因果网络_因果关系和贝叶斯网络](https://blog.csdn.net/weixin_26752765/article/details/108132740)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

水木流年追梦

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值