【Python实战因果推断】55_因果推理概论5

水木流年追梦

于 2024-07-25 22:00:04 发布

阅读量748

点赞数 32

分类专栏：因果推断文章标签： python 开发语言深度学习人工智能神经网络

本文链接：https://blog.csdn.net/qq_32146369/article/details/139706117

版权

因果推断专栏收录该内容

136 篇文章 48 订阅

订阅专栏

Consistency and Stable Unit Treatment Values

Violations

Causal Quantities of Interest

Consistency and Stable Unit Treatment Values

在上述方程中，隐含着两个基本假设。第一个假设意味着潜在结果与处理是一致的：当 $T_i = t$ 时， $Y_i(t) = Y$ 。换句话说，除了通过T指定的处理之外，没有隐藏的多重处理版本。如果处理存在多种剂量，但你只考虑其中两种，这一假设可能会被打破；例如，如果你关心折扣券对销售的影响，并将其视为二元变量——顾客是否收到优惠券——但实际上你尝试了多种折扣额度。一致性假设也可能在处理定义模糊的情况下被违反。例如，试图探究从财务规划师那里获得帮助对个人财务的影响时，“帮助”在这里意味着什么？是一次性咨询吗？是定期建议和目标追踪吗？将所有这些不同类型的财务建议打包成一个类别，也会违背一致性假设。

第二个隐含的假设是无干扰，或稳定单位处理价值（SUTVA）。即一个单位的效果不会受到其他单位处理的影响： $Y_i(T_i)=Y_i(T_1,T_2,\ldots,T_i,\ldots,T_n)$ 。如果存在溢出效应或网络效应，这一假设会被打破。例如，如果你想了解疫苗预防传染性疾病的效果，给一个人接种疫苗会使她周围的人感染这种疾病的可能性降低，即使这些人自己没有接种疫苗。违反这一假设通常会使我们认为效果比实际情况要低。在存在溢出效应的情况下，对照组单位会受到一定的处理效应，这反过来导致处理组和对照组之间的差异不如无干扰时那么明显。

Violations

幸运的是，您通常可以同时处理这两种假设下的违规行为。要解决违反一致性的问题要解决违反一致性的问题，就必须在分析中纳入所有版本的干预措施。为了处理溢出效应，您可以扩展干预效应的定义，将来自其他单位的效应包括在内，并使用更灵活的模型来估计这些效应。

Causal Quantities of Interest

一旦你掌握了潜在结果的概念，就可以重新表述因果推断的基本问题：由于你只能观察到一种潜在结果，因此永远无法得知个体处理效应。但这并不意味着全无办法。有了这些新概念，你已经准备好在解决这一基本问题上取得一些进展。尽管永远无法得知单个个体的具体效应τi，但还有其他有趣的因果量可以从数据中学习。例如，我们可以定义平均处理效应（ATE）如下：

$ATE=E[\tau_i],$ 或 $ATE=E\bigl[Y_{1i}-Y_{0i}\bigr],$ 或 $ATE=E[Y|do(T=1)]-E[Y|do(T=0)],$

平均处理效应代表了处理T对总体平均而言的影响。有些个体受到的影响较大，有些较小，而你永远无法知道处理对某个具体个体的确切影响。此外，如果想从数据中估计ATE，可以将期望值替换为样本均值：

$\frac1N\Sigma_{i=0}^N\tau_i$ 或 $\frac{1}{N}\Sigma_{i=0}^N(Y_{1i}-Y_{0i})$

当然，在现实中，由于因果推断的基本问题，你实际上无法这样做，因为每个个体只能观察到一种潜在结果。目前，不必过于担心如何实际估计这个量。很快你就会学到方法。现在，只需专注于理解如何基于潜在结果定义这个因果量以及为什么想要估计它们。

另一个感兴趣的群体效应是针对已接受处理个体的平均处理效应（ATT）：

$ATT=E\bigl[Y_{1i}-Y_{0i}\bigr|T=1\bigr]$

这是治疗对那些接受了治疗的单位的影响。例如，如果你在一个城市进行了一次线下营销活动，并且想要知道这次活动为该城市带来了多少额外的客户，这就是平均治疗效应(ATT)：即营销活动在实行城市的效果。这里，值得注意的是，两种可能的结果都是针对同一治疗定义的。在ATT的情况下，因为你是基于被治疗的单位做条件分析，所以未接受治疗的潜在结果 $Y_{0i}$ 总是无法观测的，但是依然被明确地定义了。

最后，你有“有条件平均治疗效应”(CATE)， $CATE=E\big[Y_{1i}-Y_{0i}\big|X=x\big],$ 这是在由变量X定义的群体中的效果。例如，你可能想要知道电子邮件对年龄大于45岁的客户以及小于这个年龄的客户的不同效果。有条件平均治疗效应对于个性化策略非常重要，因为它可以让你知道哪一种类型的单位对干预的反应最好。

你也可以在治疗是连续变量的情况下定义上述的量。在这种情况下，你用偏导数代替差异： $\frac\partial{\partial t}E[Y_i]$ 这可能看起来很复杂，但它实际上只是说你期待 $E[Y_{i}]$ 会随着治疗的轻微增加而改变多少。

水木流年追梦

关注

32
点赞
踩
9

收藏

觉得还不错? 一键收藏
打赏
0
评论
【Python实战因果推断】55_因果推理概论5

例如，如果你想了解疫苗预防传染性疾病的效果，给一个人接种疫苗会使她周围的人感染这种疾病的可能性降低，即使这些人自己没有接种疫苗。在存在溢出效应的情况下，对照组单位会受到一定的处理效应，这反过来导致处理组和对照组之间的差异不如无干扰时那么明显。这是治疗对那些接受了治疗的单位的影响。例如，如果你在一个城市进行了一次线下营销活动，并且想要知道这次活动为该城市带来了多少额外的客户，这就是平均治疗效应(ATT)：即营销活动在实行城市的效果。这里，值得注意的是，两种可能的结果都是针对同一治疗定义的。
复制链接

扫一扫