因果效应估计：用数据和模型指导决策

ML OR 智能决策

已于 2022-05-19 10:06:48 修改

阅读量1.6k

点赞数 4

分类专栏：人工智能因果推断因果关系文章标签：人工智能机器学习数据分析算法深度学习

于 2022-05-18 23:59:43 首次发布

本文链接：https://blog.csdn.net/mlorworld/article/details/124853313

版权

这是因果推断系列文章的第三篇。在前两篇中，我们介绍了：因果性和相关性，以及如何从纷繁的数据中挖掘出变量之间的因果关系。本期，我们将围绕因果效应估计，介绍如何建立因果模型并对不同干预下结果变量的差异进行预测，研究干预变量对结果变量的影响程度。

如今不论是线下门店还是线上电商，优惠券的使用非常广泛。对于用户而言，领取优惠券可以降低支付成本；对于商家而言，发放优惠券可以促进价格敏感度高的消费者消费，从而提升客流，提升销量。我们知道优惠券会提升消费意愿这样的因果关系，但是在有成本的补贴活动中，还需要通过因果效应估计对用户在有补贴下的交易意愿提升程度进行估计。例如，在滴滴的国际化外卖团队（DiDi Food）推行的智能补贴方案中 ¹ 把优惠券的发放看作干预变量，交易意愿为结果变量，基于估计值，将用户划分为四种群体，从而精准指导商家如何发放补贴券，以及对哪些用户群体发放，去最大程度的撬动原本不会产生交易行为的用户，实现双赢。

在这里插入图片描述

什么是因果效应？

上一篇文章中介绍的因果关系发现可以帮助我们挖掘出事物之间的本质关系，但要直接指导决策的制定，往往还需要定量估计出干预变量或原因变量对结果变量的影响程度，即因果效应估计。

在后文中，干预变量或原因变量（Treatment）用 $T$ 表示，结果变量（Outcome）用 $Y$ 表示，协变量（Covariate）表示为 $X$ 。以上文中的DiDi Food为例， $T$ 为是否发放优惠券， $Y$ 为用户的交易意愿， $X$ 则为用户属性、商品属性等特征变量。对于每个用户，商家在特定时刻下只能实施发放优惠券或者不发放优惠券一种干预，因此也只会产生一种观察结果，另一种情况下的结果是未知的。因果效应估计就是通过数据建模出“平行时空”，使我们可以同时获得两种潜在结果：在未发放优惠券时用户的交易意愿 $Y_0$ 和在发放优惠券时用户的交易意愿 $Y_1$ 。

按照估计范围划分，因果效应估计包括对平均干预效应（Average Treatment Effect，ATE）、条件平均干预效应（Conditional Average Treatment Effect，CATE）以及个体干预效应（Individual Treatment Effect，ITE）的估计。其中，ATE是指整个干预组与对照组潜在结果变量的差异，是一个平均意义上的指标。CATE针对每个具有相同属性的群体 $（ X = x ）$ 进行评估，是一种异质性的因果效应，能够帮助实现更加精准的决策。例如在DiDi Food场景中，基于CATE将用户划分为四类群体，构建群体画像，确定出补贴敏感用户作为干预执行群体，为不同群体提供定制化的干预方案等。而ITE则细粒度到每个独立样本。根据干预的类型，因果效应估计又可以分为连续干预、离散干预、二值干预以及动态干预下的因果效应估计等。例如，优惠券是否发放可以看作一种离散干预，而发放不同金额的优惠券则是一种连续干预。ATE和CATE的应用较多，它们在连续干预和离散干预下的计算公式如下：

当 $T$ 为连续干预， $ATE=E[y^\prime(t)]$ .
当 $T$ 为离散干预， $ATE=E[Y_1-Y_0]$ ;

当 $T$ 为连续干预， $CATE=E[y^\prime(t)|X]$ .
当 $T$ 为离散干预， $CATE=E[Y_1-Y_0|X]$ ;

如何估计因果效应？

随机对照实验（Randomized Controlled Trail，RCT）是因果效应估计最有效的方式，通过将干预随机化，即样本随意分配至对照组与干预组，并控制无关变量来观测干预的效果。但这种方法具有较高的实验成本，有的会在实验过程中影响用户体验，有些实验则受限于道德伦理的约束而无法开展。因此，基于大量可靠的观测数据对因果效应进行估计，为我们提供了另一种解决思路。什么样的数据才能推出可靠的因果效应呢？这就是因果推断的可识别性（identifiability）问题，其依赖于以下几个假设：

稳定单元干预值假设（Stable Unit Treatment Value Assumption，SUTVA）

SUTVA要求任意个体的潜在结果都不会因为其他个体的干预发生改变而变化，且每种干预是可以清晰定义的。
可忽略性假设（Ignorability）

可忽略性假设也可称为无混淆假设。对于具有相同协变量 $X$ 取值的群体，干预的分配与潜在结果变量独立： $Y\bot T|X$ ，即干预的分配应是完全随机的。
一致性假设（Consistency）

当确定 $T = t$ 时，其观察结果应与对应的潜在结果一致。
正值假设（Positivity）

正值假设是指对于任意值的 $X$ ，其干预分配都具有随机性，即各种干预都有一定的执行概率。

随机对照实验满足以上全部假设，但在观察性研究中，SUTVA、Ignorability 和Consistency 这三个假设都是无法验证的，只能依靠经验或者数据进行判断。基于观察数据的估计方法需要依托于反事实推理，即得到在不同干预下对应的潜在结果，继而计算出不同干预对结果变量的影响程度。这种方法有两个待解决的核心问题，一是每个样本的反事实结果是不可能观察到的；二是基于观察数据，不同干预下协变量分布的不平衡会引入选择偏差。以下对基于观察数据的因果效应估计方法进行了梳理：

一、重加权方法（Re-weighting methods）

样本重加权是一种解决选择偏差的高效方法。通过为每个样本分配合适的权重，使得干预组与对照组分布类似。在这种方法中，最关键的概念就是平衡分数 $b (x)$ ，其为 $x$ 的函数且满足 $T\bot x|b(x)$ 。其中，倾向评分（Propensity score）是平衡分数的一个特例，也是最常见的一种： $P\left(x\right)=P(T=1|X=x)$ 。重加权方法大致可以分成两类，分别是样本重加权和同时对样本与协变量进行重加权的方法，下面将主要对第一类方法进行介绍。