Propensity score简介

最新推荐文章于 2024-06-21 08:00:00 发布

Jie Qiao

最新推荐文章于 2024-06-21 08:00:00 发布

阅读量6.1k

点赞数 12

分类专栏：人工智能文章标签：人工智能

本文链接：https://blog.csdn.net/a358463121/article/details/106911783

版权

人工智能专栏收录该内容

51 篇文章 16 订阅

订阅专栏

预测causal effect的标准做法是做随机试验，但是这种随机试验通常很难完成，比如要预测吸烟与肺癌的因果效应，那么就必须随机让一部分人强制抽烟（treatment=抽烟），让另一部分人强制不抽烟（treatment=不抽烟），然后这样做是不现实的。此外如果不进行随机试验，那么我们很容易得出一些莫名其妙的结论。比如，你怎么知道是吸烟导致肺癌，而不是因为喜欢吸烟的人本身就容易得肺癌呢？换句话说，这里可能存在一个协变量X（喜欢抽烟），导致了一个人选择treatment=抽烟。

那这个问题怎么解决呢？直觉上，随机试验的本质其实就是将所有的协变量随机打散，分在treatment=抽烟和treatment=不抽烟中，从而使得协变量与是否做干预是独立的 $\bot X$ 。所以，类似的思路，我们只要找到一种分组方式，使得X与treatment独立就可以了。那么怎么找到这种分组？我们可以定义Propensity score:
$e(x)\ {\stackrel {\mathrm {def} }{=}}\ \Pr(\text{treatment}=抽烟|X=x).$
现在如果有两个人，一个抽样，一个不抽烟，但是他们的Propensity score是一样的（或者相似的），我就将他们分别分到抽烟组和不抽烟组，只要找到足够多这样的pair，这两个分组就会跟协变量独立。更直观来说，两个人的Propensity score一样，意味着他们的X应该是很接近，如果我们能找到两个“一样”的人，他们的生活环境，年龄，性别等等因素（协变量）都是一样的，除了一个人抽烟一个人不抽烟这一点不同，那么，只要有足够多这样的人，我们就能判断吸烟对肺癌的影响。

但是以上分组的过程我们完全采用一种简单matching的技术解决，也就是计算X之间的相似性然后根据相似性进行分组即可，为什么还要使用propensity score呢？原因是，如果X是超级高维的变量，简单的matching就会失效，为了维度诅咒的原因，高维的matching是非常不可靠的，然而对于propensity score而言，不管X有多少维，这个score永远只会是1维！

Propensity score theorem

根据上面的分析，利用propensity score的大小就可以帮助我们找到一种分组使得该分组与treatment的效果独立，正式地：
$\bot T | X \Rightarrow ( Y ( 1 ) , Y ( 0 ) ) \bot T | e ( X )$
要理解这个等式，我们可能需要先理解一下，为什么需要

$\bot T$

这一条件也被称为Ignorability/Exchangebility Asummption. 从下图上可以直观理解这一条件。那就是treatment的选择是独立的。
在这里插入图片描述
咦，那为什么，T会跟Y独立，难道不是T导致Y的吗？我们用个例子解释这个问题，假设你在纠结要不要养猫，那么我们用 $Y (1)$ 表示得到小猫的幸福程度，用 $Y (0)$ 表示没有小猫的幸福程度，显然不管我们选择得到小猫，还是没有小猫，但对于结果 $Y (1), Y (0)$ 它永远是“存在“的，只是你无法“观测”而已，你可以想象这两个结果是上帝决定的，我们选择treatment只是决定观测到其中的哪一个，并不会影响他具体的值。

为什么这一假设如此重要？因为我们只能观测到选择treatment后的Y，而无法知道上帝决定的 $Y (1), Y (0)$ ，如果T的选择会影响上帝的结果，那么我们的观测值将不再可信，这意味着存在某些因素会同时影响t和Y。基于该假设，我们就可以预测出average treatment effect。

$\left. \begin{array}{l}{ E [ Y ( 1 ) ] - E [ Y ( 0 ) ] = E [ Y ( 1 ) | T = 1 ] - E [ Y ( 0 ) | T = 0 ] }\\{ = E [ Y | T = 1 ] - E [ Y | T = 0 ] }\end{array} \right.$

该公式表明，我们可以从观测数据中学习出average treatment effect，然而现实中，T往往与Y(0),Y(1)不独立的，所以我们往往会做一个弱一点的假设，也就是Conditional Exchangeability/Unconfoundendess Assumption:

$\bot T|X$

这意味着，当给定协变量X的时候，他们就是独立的，如下图所示

在这里插入图片描述
类似的，我们就可以推导出：

$\left. \begin{array}{l}{ E [ Y ( 1 ) - Y ( 0 ) | X ] = E [ Y ( 1 ) | X ] - E [ Y ( 0 ) | X ] }\\{ = E [ Y ( 1 ) | T = 1 , X ] - E [ Y ( 0 ) | T = 0 , X ] }\\{ = E [ Y | T = 1 , X ] - E [ Y | T = 0 , X ] }\end{array} \right.$

根据iterated expectations: $E_X(X)=E_Y[E_X(X|y)]$

$\begin{aligned} E_{X}( X) & =\int xp( x) dx\\ & =\int \int xp( x,y) dxdy\\ & =\int \int xp( x|y) dxp( y) dy\\ & =\int E_{X}[ X|y] p( y) dy\\ & =E_{Y}[ E_{X}[ X|y]] \end{aligned}$

我们可以进一步得到：

$\begin{aligned} E[Y(1)-Y(0)] & =E_{X}[ E[Y(1)-Y(0)|X]]\\ & =E_{X}[ E[Y|T=1,X]-E[Y|T=0,X]] \end{aligned}$

于是，我们就成功得到了average treatment effect. 接下来回到正题，对于propensity score的作用，

$\bot T | X \Rightarrow ( Y ( 1 ) , Y ( 0 ) ) \bot T | e ( X )$

显然， $e (X)$ 起到了替代X的作用！也就是说，用一个一维的东西代替了一个高维的变量。那么从直觉上，这个东西为什么成立呢？

在这里插入图片描述
看上图，上面的W是我们的X，因为我们已知给定可以block掉confounder，因为e(W)是W的函数，可以认为e(W)也block掉了路径。

该正式证明过程如下：

首先因为T是二值变量，所以概率可以写成期望

$P (T = 1, ∣ Y (t), e (X)) = E [T ∣ Y (t), e (X)]$

根据iterated expectations,可以额外增加一个 $\displaystyle X$ 作为条件

$E[T|Y(t),e(X)]=E_{X}[ E[T|Y(t),e(X),X]|Y(t),e(X)]$

因为我们给定了 $\displaystyle X$ ，所以 $\displaystyle e(X)$ 只是一个X的函数，所以是可以去掉的：

$E_{X}[ E[T|Y(t),X]|Y(t),e(X)]$

根据 $\displaystyle (Y(1),Y(0))\bot T|X$ ，

$E_{X}[ E[T|X]|Y(t),e(X)]$

又因为T是二值的，所以期望可以写成概率

$\begin{aligned} & =E_{X}[ p( T=1|X) |Y(t),e(X)]\\ & =E_{X}[ e( X) |Y(t),e(X)]\\ & =e( X) \end{aligned}$

最后，因为条件集出现 $\displaystyle e(X)$ ，所以这个期望最终的就是 $\displaystyle e(X)$ ，从而与 $\displaystyle T$ 是独立的。

Inverse Probability Weighting (IPW)

从上面可以看到，阻碍我们正确预测Y的就是因为存在confounder，即
在这里插入图片描述
然后，我们希望的是没有confounder的情况，也就是，

这两幅图对应分布的区别是什么呢？那就是T和W的独立性，换句话说，我们希望，

$P (T, Y, W) = P (Y ∣ T, W) P (T) P (W)$

然后实际上，有confounder的情况下他的分布应该是：
$\hat{P}(T,Y,W)=P(Y|T,W)P(T|W)P(W)$

那有没有可能找到一种方法使得他们相等？解决这个问题的一般方法是reweight，也就是说：

$P(T,Y,W)=\frac{P(T)}{P(T|W)}\hat{P}(T,Y,W)=\beta \hat{P}(T,Y,W)$

通过乘以一个权重，这两个分布就可以做一个转换了，实际上，更方便的方法是对T作一个“干预操作“，这意味着T的取值一定等于某个确定的数，于是此时, 不管W取什么值，T等于某个值的概率为1，这意味着， $P (T ∣ W) = P (T) = 1$ 。因此我们只要将 $\hat{P}(T,Y,W)/p(T|W)=P(T,Y,W)$ 就可以变成分布 $P$ ！也就是说，对于均值，我们有以下关系 $E[I(T=t)y]\Longrightarrow E[\frac{I(T=t)Y}{p(t|w)}]$ ，这里的 $I (T = t)$ 其实就可以理解为一种干预操作。. 并且我们可以证明IPW的目标跟standardization treatment effect（另一种说法是back-door adjustment, 一种经过debiased的treatment effect计算方法）是等价的:

$\sum _{w} E[ Y|T=t,W=w] P( W=w)$

于是

$\begin{aligned} & =\sum _{w} E[ Y|T=t,W=w] P( W=w)\frac{p( t|w)}{p( t|w)}\\ & =\sum _{w}\sum _{y} yP( y|T=t,W=w) P( W=w)\frac{p( t|w)}{p( t|w)}\\ & =\sum _{w}\sum _{y} yP( y,T=t,W=w)\frac{1}{p( t|w)}\\ & =\sum _{w}\sum _{y}\sum _{t} I( T=t,W=w) yP( y,T=t,W=w)\frac{1}{p( t|w)}\\ & =\sum _{w} E_{t,y}[ I( T=t,W=w) y]\frac{1}{p( t|w)}\\ & =E_{t,y}\left[\frac{I( T=t) y}{p( t|w)}\right] \end{aligned}$

最后一条等式考虑了 $\displaystyle p( t|w)$ 中的条件 $\displaystyle w$ ，默认了是 $\displaystyle W=w$ ，所以为了方便起见，就把 $\displaystyle I$ 中的 $\displaystyle W$ 忽略掉，其实是需要加上去的，不过好像大家都是这么写的，就忽略掉了。

最后我们的计算公式就是如下：

$\tau \triangleq E [ Y ( 1 ) - Y ( 0 ) ] = E [ \frac { 1 ( T = 1 ) Y } { e ( W ) } ] - E [ \frac { 1 ( T = 0 ) Y } { 1 - e ( W ) } ]$

其估计值：

$\left. \begin{array}{l}{ \hat { \tau } = \frac { 1 } { n } \sum _ { i } ( \frac { 1 ( t _ { i } = 1 ) y _ { i } } { \hat { e } ( w _ { i } ) } - \frac { 1 ( t _ { i } = 0 ) y _ { i } } { 1 - \hat { e } ( w _ { i } ) } ) }\\{ = \frac { 1 } { n _ { 1 } } \sum _ { i : t _ { i } = 1 } \frac { y _ { i } } { \hat { e } ( w _ { i } ) } - \frac { 1 } { n _ { 0 } } \sum _ { i : t _ { i } = 0 } \frac { y _ { i } } { 1 - \hat { e } ( w _ { i } ) } }\end{array} \right.$