在之前的章节中,我们讨论了如何估计平均治疗效应以及如何通过线性回归和倾向得分来调整混杂变量。随着因果推断技术的不断进步,我们现在可以进一步探索治疗效应的异质性,即不同的个体或群体对同一治疗的反应可能截然不同。本章将探讨如何估计条件平均治疗效应(CATE),并利用这些信息进行个性化决策。
异质性效应的引入
在许多情况下,治疗效应并不是均匀的。一些个体可能会从治疗中获得显著的益处,而另一些个体可能没有任何反应,甚至可能受到负面影响。识别和量化这种异质性效应对于制定有效的个性化干预策略至关重要。
从ATE到CATE
平均治疗效应(ATE)给出了治疗对总体的平均影响,但无法告诉我们哪些个体会受益于治疗。条件平均治疗效应(CATE)通过引入协变量 来捕捉治疗效应的异质性。
估计CATE的挑战
估计CATE的一个主要挑战是,我们通常无法直接观察到每个个体的反事实结果(即在不同治疗条件下的结果)。为了克服这一挑战,我们需要使用统计模型来预测这些反事实结果。
使用回归模型估计CATE
线性回归模型是估计CATE的一种自然选择。通过在回归模型中包含治疗和协变量之间的交互项,我们可以估计治疗效应是如何随着协变量的不同而变化的。
机器学习在CATE估计中的应用
随着机器学习技术的发展,我们现在可以使用更复杂的模型来估计CATE,这些模型能够捕捉数据中的非线性和交互效应。例如,随机森林和梯度提升机(GBM)等集成方法因其灵活性和预测能力而受到广泛关注。
双重稳健估计的扩展
双重稳健估计也可以扩展到CATE的估计中。通过结合倾向得分和潜在结果模型,我们可以创建一个估计器,即使其中一个模型未能正确指定,