前言
我们在生活或工作中经常会遇到这样的问题:如果我做了某个选择,会不会对我的结果产生影响?比如,如果当年我选了文科而不是理科,是不是现在就不是单身?如果我给考研用户推荐刷的是张x的1000题而不是汤xx的1800题,学生的数学平均分会不会提高?如果我在营销活动中将8折改成充满100减20,用户的消费客单价可以提高多少?
这些问题都涉及到因果推断的问题,即如何从观察到的数据中识别出某个变量对另一个变量的真实影响。然而,在实际工作or研究中,我们往往不能进行随机实验来控制其他干扰因素,而只能利用已有的数据来进行分析。这时候,我们就需要一些有效的方法来解决内生性和选择偏差等问题,从而得到可信的因果效应估计。
PSM-DID模型就是这样一种方法,它结合了倾向得分匹配法(PSM)和双重差分法(DID),有效地解决处理组和对照组之间存在的可观测和不可观测的混杂因素。该系列旨在通过阐述PSM-DID模型的原理、建模过程,并通过一个简单的业务案例实现帮助读者更好地在实践中理解运用模型。本文为PSM-DID系列文章的原理介绍与建模流程讲解部分,不足之处,望多多指正。
1.PSM-DID模型原理简介
(1)模型介绍(通俗理解)
PSM-DID模型是一种评估政策或干预是否有效的方法,它是由两个模型组合而成的。
- 第一个模型叫做倾向得分匹配(PSM):找个长得像的,它的作用是找出两组相似的个体或单位,一组接受了政策或干预,另一组没有。这样可以排除其他因素的影响,只看政策或干预本身的效果。
- 第二个模型叫做双重差分(DID),长得像在另一个相同的世界里,结果差异都是单一干预的锅,它的作用是比较两组在政策或干预前后的变化,看看接受了政策或干预的一组是否比没有接受的一组有更好的结果。这样可以排除时间上的影响,只看策略或干预带来的变化。
PSM-DID模型的目标是估计策略或干预对接受了它们的一组(处理组)相比没有接受它们的一组(控制组)有多大的影响,这个影响就叫做平均处理效应(ATT)。
(2)模型原理(彰显逼格的专业讲解,可绕过)
PSM-DID模型将实质是将PSM和DID结合起来,先用PSM进行匹配,再用DID进行回归计算干预带来的因果效应,从而同时解决可观测变量和不可观测变量带来的选择偏差问题。其计算平均处理效应ATT的数学表达式为:
A T T = E ( y 1 i ∣ D i = 1 ) − E ( y 0 i ∣ D i = 1 ) ATT=E(y_{1i}|D_i=1)-E(y_{0i}|D_i=1) ATT=E(y1i∣Di=1)−E(y0i∣Di=1)
= E ( y 1 i ∣ D i = 1 ) − E ( y 0 i ∣ D i = 0 , P ( X ) ) =E(y_{1i}|D_i=1)-E(y_{0i}|D_i=0,P(X)) =E(y1i∣Di=1)−E(y0i∣Di=0,P(X))
= [ E ( y 1 i ∣ D i = 1 , T = 1 ) − E ( y 0 i ∣ D i = 0 , T = 1 , P ( X ) ) ] =[E(y_{1i}|D_i=1,T=1)-E(y_{0i}|D_i=0,T=1,P(X))] =[E(y1i∣Di=1,T=1)−E(y0i∣Di=0,T=1,P(X))]
− [ E ( y 1 i ∣ D i = 1 , T = 0 ) − E ( y 0 i ∣ D i = 0 , T = 0 , P ( X ) ) ] -[E(y_{1i}|D_i=1,T=0)-E(y_{0i}|D_i=0,T=0,P(X))] −[E(y1i∣Di=1,T=0)−E(y0i∣Di=0,T=0,P(X))]
其中,
- y 1 i y_{1i} y1i和 y 0 i y_{0i} y0i分别表示个体 i i i在接受和未接受处理时的潜在结果变量;
- D i D_i Di表示个体 i i i是否接受处理,取值为0或1;
- T T T表示时间,取值为0或1;
- P ( X ) P(X) P(X)表示倾向得分函数,是一个关于可观测协变量 X X X的函数;
- E ( ⋅ ) E(\cdot) E(⋅)表示条件期望。
公式中第一行表示ATT的定义;第二行表示在给定倾向得分后,控制组可以作为处理组的有效对照;第三行表示在给定倾向得分后,利用前后两个时间点上结果变量的差异来估计ATT
2.PSM-DID的建模过程
在实践中,PSM-DID建模流程一般分为以下几个步骤:
- 第一步,明确问题,确定假设,确定研究对象、研究问题、研究假设和研究方法。明确要评估哪种政策或干预对哪些个体或单位有什么样的影响,并选择合适的数据来源、样本范围、时间跨度、结果变量和协变量
- 第二步:数据获取、清洗,基于第一步确认好需要获取的变量后,进行数据的获取与清洗、整理、描述和可视化,检查数据质量、数据特征、数据分布等
- 第三步:计算倾向得分,基于得分进行样本匹配,根据协变量估计每个个体接受处理的概率(即倾向得分),得分通常用一个二元回归模型来估计,如逻辑回归、Probit回归。其数学式为: P ( D i = 1 ∣ X i ) = f ( X i , β ) P(D_i=1|X_i)=f(X_i,\beta) P(Di=1∣Xi)=f(Xi,β)(其中, D i D_i Di是个体 i i i的处理变量, X i X_i Xi是个体 i i i的协变量向量, b e t a beta beta是待估参数向量, f ( ⋅ ) f(\cdot) f(⋅)是一个逻辑函数或者正态分布函数 ),选择合适的匹配方法、匹配算法、匹配范围等进行匹配。匹配后检验匹配质量,包括平衡性检验、共同支撑区检验等。
- 第四步:双重差分回归,利用匹配后的数据构建双重差分回归模型,选择合适的回归方法、回归函数、回归控制等进行回归,估算平均处理效应。回归后要检验回归效果,包括显著性检验、平行趋势检验、稳健性检验等。
- 第五步:评价结果,给出建议,根据回归结果估算策略或干预对处理组相对于控制组的平均处理效应ATT,并与研究假设进行比较和分析。讨论结果可能存在的局限性、不确定性、偏误等,并提出改进方向或政策建议。
3.PSM-DID优点及不足
在实际业务场景,PSM-DID模型是一种常用且有效的因果评估方法,其主要优点在于:
- **实施简易,**相较于随机实验(ABTest)方法,PSM-DID方法不需要进行随机分配处理组和控制组,而是利用已有的观察数据来估计因果效应。这样可以避免一些伦理、成本、可行性等方面的问题(比如,在电商领域,我们可能无法随机地给用户发放不同金额的红包,因为这可能会影响用户的满意度或忠诚度)
- 灵活运用,根据数据特征和业务场景的不同,可以灵活地选择匹配方法、匹配算法、匹配范围等参数,进行模型调整
- 可信准确,通过PSM与DID方法的有机结合,同时解决可观测变量和不可观测变量带来的选择偏差问题,提高政策效应估计的准确性和可信度
- 实现简单,业界已有多个成熟因果方法库可直接应用实现模型,如Ylearn、psmy等
当然,该模型也存在一定的局限性:
- 前置条件难检验,PSM-DID方法需要满足条件独立性假设(CIA)和平行趋势假设(PTA),这两个假设都是无法直接检验的,只能通过一些间接的方法来验证。
- 小样本难应用,PSM-DID方法需要有足够多的协变量来估计倾向得分,否则可能存在遗漏变量偏误
- 变量少难实施,PSM-DID方法需要有足够大的样本量来进行倾向得分匹配,否则可能存在匹配不足或匹配不平衡的问题
小结
PSM-DID模型通过PSM方法间接帮我们选出另一个“平行世界”中的用户群,再通过DID方法帮助我们估算如果用户没有xxx,xxx会平均提升多少,从而得出策略对结果的干预效应,在事实因果分析业务场景中有较多的应用,是数分面试官常爱问因果推理概念之一。了解和掌握该方法,相信可以帮助读者解决反事实因果评价场景的大部分问题
参考资料:
《数据科学工程实践》
《因果论》
https://www.zhihu.com/question/35528132
https://zhuanlan.zhihu.com/p/392443329
https://zhuanlan.zhihu.com/p/362294927
https://blog.csdn.net/celine0227/article/details/121061453