临床数据的区组实验数据分析 - 倾向性评分匹配（PSM）

最新推荐文章于 2024-06-21 08:00:00 发布

Xiaofei@IDO

最新推荐文章于 2024-06-21 08:00:00 发布

阅读量3.3k

点赞数 3

分类专栏：统计学文章标签：临床医学

原文链接：https://www.jianshu.com/p/78f55f4121ec

版权

统计学专栏收录该内容

16 篇文章

订阅专栏

1. 背景知识

在医疗领域，研究一款新药是否有效，通常需要做的是大规模分组实验，treatment（实验组）与 control（对照组）除了服用的药物有所不同外，其他因素，如：身高、体重、病情等，应该是类似的，这样的实验结果才能对新药的药效有客观的评价。

在互联网、电商等公司，也有类似的场景：为了测试一个新优化的页面是否能够提高支付转化率，需要做ABtest。这时一个很重要的环节就是将流量随机的分为A组和B组，A与B的关系是平行宇宙，我们希望的是A与B的区别只是看到的页面有所不同，其他特征如性别、用户生命周期等均一致。

但是在实际工作中，我们可能遇到现实情况不允许做随机实验，那么我们如何去判定一个动作的收益呢？或者说如何科学地将某个指标的变化归因于某个动作呢？这时PSM可能是一个解决方案。

2. 来看一个具体的实例

一个NGO组织在一些村庄建立了健康诊所（实验组），并且选取另外一些村庄不建立健康诊所，设置其为对照组
值得注意的是这些村庄的分组并非随机，他们之间可能存在一些bias
与此同时，这个NGO组织在启动建立健康诊所这个项目前，对所有村庄（包括实验组和对照组村庄）有过调查，手上有一些村庄的特征
通常情况下，我们可以分别对比对照组和实验组项目实施前和项目实施后的新生儿死亡率，进行Difference in Difference 的研究，目前我们假设，并没有历史的新生儿死亡率数据

不考虑其他可能的影响因素的情况下，直接进行比较

在这里插入图片描述
上图中的T=1代表建立诊所，T=0代表没有建立诊所，infant mortality为新生儿死亡率。我们简单看下每个分组的平均新生儿死亡率：

我们惊讶的发现，建立了健康诊所的实验组新生儿死亡率16.5%，而没有建立健康诊所的对照组新生儿死亡率12.4%，居然健康诊所对新生儿健康的影响是负向的？这非常不符合逻辑！有理由怀疑，在项目启动前，实验组和对照组有明显的差异，进而导致实验结果偏差。

更合理的解决方案

在问题描述里，我们提到这个NGO组织在启动健康诊所项目之前对所有村庄进行过仔细的调研，有一些其他的特征被采集。
在这里插入图片描述
我们在这里添加了两个特征：poverty rate 贫穷率和per capita doctors 人均医生数。大体来看，实验组VS对照组，有更高的贫穷率和更低的人均医生数。在这样的情况下，我们如何来衡量该项目的效果呢？

为每一个实验组的村庄创建/找到新的对照组：
针对每一个实验组的村庄，找到其特征类似的对照组。换句话说，针对每一个实验组的村庄S，在对照组中找到其“映射”S’，在项目启动前，这个S’与S有相似性（类似的贫穷率、类似的人均医生数等）。这个映射S’的集合，我们姑且称之为新对照组。
计算实验组效果
计算实验组和新对照组平均新生儿死亡率，进行对比。
到此为止一些basic idea已经介绍完毕，下面搞一个比较细节的问题：如何找到映射S’？

3. Propensity Score

这时我们就需要用到Propensity Score的计算。

`PSM Step1：计算Propensity Score`

我们选择使用Logistic Regression作为计算Propensity Score的方法：
在这里插入图片描述
在NGO的健康诊所场景下，自变量：为贫穷率，为人均医生数，因变量为T。这个操作可以解释为，通过背景数据（贫困率、人均医生数）来预测每一个村庄与实验组村庄的相似程度，从而帮助我们找到新的对照组。
可以参考如下python代码搭建逻辑回归模型，并预测对照组和实验组中的每一个村庄的值。

import statsmodels.api as sm
formula = "T ~ poverty_rate + per_capita_doctors"
model = sm.Logit.from_formula(formula, data = data)
re = model.fit()
X = data[['poverty_rate', 'per_capita_doctors']]
data['ps'] = re.predict(X)

在这里插入图片描述

`PSM Step2: Matching`

计算出Propensity Score后，在对照组中需要寻找到与实验组行为（贫穷率、人均医生数）相似的村庄，此过程被称为Matching。
在这里我们采取最简单的最邻近匹配法(Nearest Neighbor Matching, NNM)，对每一个实验组村庄进行遍历，找到ps值最接近的对照组村庄作为新对照组集合中的元素，即为new_control_index。

以index=0的实验组村庄为例（ps=0.416571），在健康诊所项目启动前，与其贫穷率、人均医生数最为接近的对照组成员为index=5村庄（ps=0.395162）。到此为止，每个实验组村庄都找到了其新的对照组。