数据分析36计(24):因果推断结合机器学习估计个体处理效应

个体异质性为何重要

传统的因果推断分析,主要关注焦点是平均处理效应(Average Treatment Effect)。许多科学和工程都会面临这样的挑战,从个性化的医疗救治方案,到定制型的营销建议都需要了解异质性处理效应。即个体层面的因果效应的异质性推断(Treatment Effect Heterogeneity)。例如,在医学上,当医生决定是否要对一位癌症患者采用某项治疗时,由于同一疗法对于不同患者(基因突变状况、体力状况、免疫水平等)的效果区别很大,在决定是否采用该治疗时,医生需进一步知道不同特质的患者在采用这种治疗时会有怎样的结果,而不是仅依赖该种治疗方法的人群平均效应,需要考虑到处理效应的异质性,即为个体处理效应(Individual Treatment Effect)。假设处理变量是一种药物,该药物的人群平均效应可能不是阳性的,但是对特定类别的患者可能有效,则医生应尽可能将药物开给能从中受益的亚人群(Subpopulation),因此对个体处理效应进行推断以促使研究人员发现治疗受益的人群是非常重要的。在商业应用中,对异质处理效应的估计可以帮助回答以下问题:对谁有大或小的处理效应?处理对哪个分组产生有利或不利影响?例如,在市场营销领域,通过回答哪个客户群体对某个市场营销活动反应最大,或对哪个客户群体的干预策略对其流失的因果关系这一问题,对异质处理效应的估算可以帮助企业优化资源分配。或者在定价方面,量化价格变化对不同年龄或收入群体之间的销售如何影响。

利用机器学习估计处理效应

目前估计个体处理效应的方法有贝叶斯自适应回归树、反事实随机森林等。2015 年,Athey 和 Imbens 将机器学习中常用的分类回归树(Classification and Regression Trees)引入到了传统的因果识别框架,定义了因果树(Causal Tree)的概念,用它们来考察异质性处理效应。而后 Wager 和 Athey 又推广了因果树方法,讨论了如何用随机森林(Random Forest)算法来整合因果树并估计异质性处理效应,称为因果森林(Causal Forest)。本文主要介绍因果森林在复杂数据中对个体处理效应的推断。利用机器学习估计个体因果效应,Wager 和 Athey (2015) 提出一种基于随机森林(Random Forest)的估计异质处理效应的方法。不同于一般的随机森林关注于预测问题,他们的随机森林算法里每棵树就是一棵因果树(Causal Tree)。对于每一因果树而言,首先识别出每一分组,而后根据每一分组里的变量估计处理效应。最后,由许多因果树构成的因果森林能将某处理效应顺利地估计出来。这种非参数方法与传统非参数方法 kernal regression、nearest-neighbor matching 很相近,本质上都是通过寻找 neighbors 的方式,在每个分组内近似随机实验,这样特征变量 x 的每一个值都有一个明确的处理效应估计值。该方法具有一个优势即没有『维数诅咒』的问题,而传统方法当变量的维数增加时效果会大打折扣。两位作者还证明由因果森林而得来的预测是渐进正态并且对于每一个x来说都是趋近于真实值的。相较于现有的计量经济学方法,随机森林被大多数学者认为在预测问题上表现的更佳,特别是当存在数目众多的协变量时。

为什么不用回归方法[1]

计量经济学和其他社会科学长期以来一直在研究哪种变量预测的效果小于或大于平均处理效应,这在统计学上也称为“调节(或交互)作用”。寻找异质处理效应的最传统方法之一是使用多重线性回归,其中所关注变量(即可能导致处理异质性的变量)与处理指标之间存在交互作用。如果假设数据来自随机实验,从而确定处理效应的假设是有效的。然后得出结论,处理效应取决于交互项在统计学上具有显着性的变量。但是对于真实的分析场景中,有多个特征变量影响着处理变量和结果变量,那么交互项将会有

  • 12
    点赞
  • 59
    收藏
    觉得还不错? 一键收藏
  • 9
    评论
评论 9
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值