连续因果森林模型的构造与实践

本文介绍了在网约车供需策略中,如何构造连续因果森林模型来估计连续处理变量(如价格)对响应变量(如供需关系)的异质处理效应。通过改进二元因果森林,提出了平均偏效应(CAPE),实现单一模型对多元/连续处理效应的估计,并在实际应用中取得显著效果。
摘要由CSDN通过智能技术生成

桔妹导读:近年来,因果推断逐渐成为了机器学习中的热点话题。增益模型(Uplift Model)作为工业界因果推断与机器学习结合最成熟的算法之一,在智能营销中有着广泛的应用。目前大多数增益模型仅讨论了二元处理变量情况下的处理效应估计,然而在网约车市场中存在大量多维、连续的处理变量。针对这一困境,我们构造了连续因果森林模型,并成功地应用在了网约车交易市场策略上。

1. 

前言

在网约车供需策略技术基础能力团队,我们最关注的工作之一就是量化价格对网约车供需关系的影响。这对于精细化定价补贴策略的制定和优化有着重要的意义。

在业界,我们称针对某个处理变量(Treatment),衡量其处理效应(Treatment Effect)的一类模型为增益模型(Uplift Modeling)。

与传统的监督学习模型关注于准确估计响应变量(Y)不同, 增益模型专注于估计处理变量(W)对响应变量(Y)的影响。因此这类问题通常被放在因果推断(Causal Inference)的框架下进行讨论。

目前市面上大多数流行的增益模型框架(如CausalML, pylift, grf),都很好地支持了二元处理变量(如发券或不发券,吃药或不吃药)的效应估计。但在多元/连续处理变量方面,尚未有很好的支持。

然而,在广大的应用场景中,多元或连续的处理变量更为普遍。例如,价格就是一个连续变量,存在理论上无限多的可能值。当我们希望估计各个价格点对供需关系的影响的时候,二元处理效应模型的局限性就显露了出来。

图 1 滴滴App截图

针对这种困境,我们开始思考是否可以在因果推断的框架下实现对多元或连续处理变量的效应估计。经过一段时间的开发和测试,在二元因果森林的基础上,我们扩展研发了连续因果森林,初步解决了部分场景下连续变量处理效应的估计问题。

本文主要介绍连续因果森林模型的构建原理及应用,希望对大家在处理相关问题时有所启发和帮助。

2. 

模型构造

2.1 因果森林简介

因果森林(Causal Forest)是由Susan Athey、Stefan Wager等人开发,专门估计异质处理效应的机器学习模型,是当前增益模型领域最为流行的算法之一。目前,官方有基于C++/R语言的算法实现(https://grf-labs.github.io/grf)。

与其他增益树模型(Tree-based Uplift Model)类似,因果森林

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值