因果推断15--GRFlift: GMV约束下多重处理的提升模型

作为预测分析的主要目标，提升建模用于估计特定行动或治疗将对结果产生的影响。按照惯例，无论治疗的种类和相应的费用如何，只要买方在治疗后购买，治疗就会被评估为成功。显然，它不能被归类为二元分类问题。因此，我们扩展了普通提升模型来支持多处理任务。为了与基于树的模型协调这方面的可解释性，我们使用随机森林(RF)作为我们的基本模型。我们提出了基于商品总价值(GMV)的抬升建模RF (GRF lift):一个抬升模型，其中典型的商业评估GMV被设计为新的树分割标准，以直接量化抬升成就。设计了一个目标正则化项来调整分裂分布的差异。模型中提出的分割过程在显示最优处理分配的同时实现了利润最大化的目标。工业数据、合成数据和观测数据都证实了该方法的有效性。因此，对不同的用户分配不同的适度处理，可以获得明显的吸引力，避免不必要的投资。

关键词:提升建模·商品总值·倾向得分·因果推断

单位：哈喽

1介绍

许多科学领域的核心问题之一是确定一个行为如何影响结果，也就是说，确定一个行为是否有因果效应或治疗效应。这是科学研究和许多学科应用中的一个基本问题。在商业中，流行的研究是，电子商务公司为了制定成功的商业战略，会重点研究广告的植入或对用户的奖励是否会给他们带来利益。相应的方法是因果推断(CI)，即确定改变一个变量(例如，治疗)的值是否会影响另一个变量(例如，结果)的值[15,22]。CI的基本方法称为隆起建模[26]。隆升建模在市场营销和保险领域的成功最初引起了人们的注意。实际上，隆升模型也可以应用于任何可能进行随机实验和需要个性化治疗选择的情况。假设，例如，我们想要确定折扣(治疗)是否会增加折扣后的购买，或者用户对广告有多敏感。然而，提升建模的一个重要且尚未充分利用的用途是用于多个治疗组具有不同成本的实验，例如同时测试不同的折扣和促销。这增加了隆升模型主要研究内容的意愿。毫无疑问，这种二元解决方案(治疗或不治疗)的潜在失败不仅与所做的决定有关，而且与保证有关治疗费用最低。不幸的是，解决多重处理问题的相关方法仍然有限。

与基于深度学习的黑盒模型相比[4,14,28,31]，基于决策树的模型之所以大受欢迎，是因为它们在每棵决策树中都产生了很高的可解释性。基于改进决策树算法的隆升模型已引起广泛关注。采用带有修剪方法的决策树分类器，利用Kullback-Leibler (KL)散度和Euclidean (ED)度量来比较处理部分和对照部分[26]结果的差异。毫无疑问，在隆起建模[29]中，boost和RF等集成方法得到了改进，达到了比单个模型更高的精度。即使在差异较大的实验数据集上，抬升RF模型仍然被认为是最好的模型之一，特别是在计算基尼系数[6]时。然而，由于分类算法的核心，在训练过程中，扬升信号并不是重点关注的点。当数据有噪声和不足时，这种不利影响更加明显。

从统计学的角度来看，观察性研究的一个常见局限性是无法排除数据偏倚和混杂变量，治疗组和对照组的比较本身就没有说服力。例如，我们不能将不吸烟但健康状况不佳的人与吸烟但健康状况良好的人进行比较。值得注意的是，倾向得分发挥了平衡作用:基于倾向得分，我们将在处理组和未处理组之间实现类似的分布[2]。

在本文中，我们的任务是通过折扣(即待遇)吸引用户购买我们的每月共享单车卡。其中一个关键问题是确定不同用户的治疗类型，以增加他们的购买。由于不同的处理方式意味着不同的成本，因此将不同的处理方式分配给用户可以定义为多处理任务。为了与基于树的模型协调这方面的可解释性，我们使用基于树的模型作为我们的基础模型。在我们的任务中，一方面，我们更感兴趣的是测量群体而不是个人。另一方面，考虑到boosting方法需要梯度更新操作，它严重依赖于标签。标签是昂贵的，因为我们需要获得相同的用户群体或在购买行为中具有相似特征的用户，无论是否进行处理。因此，在这项工作中，我们提出RF作为我们的提升模型的元学习器，其中新的分割标准被设计为总商品价值(GMV)收益[11,12]，以充分考虑商业利润。值得注意的是，作为一个有效的增长指标，GMV可以用来确定电子商务业务的健康状况。利用单一模型，我们可以得到获得最大利润的决策解，同时得到准确的处理。从本质上的观察数据中研究因果关系是科学研究的一项内在任务。在实验部分，我们使用了三个基准数据集，包括来自H elloBike公司的行业数据和观测数据，以及合成数据来评估我们的GRF lif模型。

综上所述，我们的主要贡献如下:

(1)扩展抬升模型以支持多处理任务。

(2)提出了一种新的树分裂准则，以充分量化GMV。

(3)设计正则化函数对模型进行优化。

(4)进行广泛的烧蚀实验，以评估不可缺少的组件在我们的模型中的贡献。

(5)通过定量分析三个基准数据集，证明了我们的模型与最先进的方法相比的有效性。

所提出的GMV lif t模型的系统流程图如图1所示。GMV lif的树形图部分如图2所示。通过我们的模型，不同的用户会得到不同的待遇，帮助企业获得最好的效益。本文其余部分的组织如下。第2.1节介绍了隆起建模。第4节描述了我们提出的方法。第五节介绍了实验过程，并对实验结果进行了讨论。第6节对本文进行总结和讨论。

2相关工作

近年来，隆升建模被广泛应用于许多任务中。Olaya等人[19]提出了随机森林和xgboost提升模型，以最大限度地提高高等教育机构的保留努力的有效性。Maldonado等人[18]提出了实现学生退学预测的数据驱动方法。目前，提升建模主要应用于营销活动策划。Gubela等[8,19]证实隆起建模可以显著提高活动利润。他们还阐明了如何在商业应用中部署提升模型。从盈利最大化的角度来看，如何从各种营销策略中选择最合适的策略，同时考虑成本[20]是一个挑战。Olaya et al.[21]和Verbeke et al.[30]提出的二元因果分类成本敏感提升模型为多分类任务奠定了基础。受[21,30]的启发，我们的方法同时缓解了多分类(即多处理)和利润最大化问题。

从技术角度来看，与机器学习中传统的回归或分类任务不同，提升模型的性能不能被认为与测试集的性能完全相同。直觉上很清楚，我们无法得到关于治疗和未治疗的反馈个人在同一时间为一群人服务。幸运的是，隆起建模解决了根本的挑战。对于商业目标，与传统预测建模相比，隆起建模能够解决更高级的增量利润，带来更多的收入。

基于树的技术在隆升建模中被广泛应用[32,33]。然而，目前的研究在隆升建模中很少考虑实际的营销目标。决策树或RF作为一种分类模型方法，虽然使用原始的分割准则，但在实际业务场景[27]中并不能取得很好的性能。隆升建模的最大挑战是如何设计合适的评估方法来评估模型的有效性。Hansotia et al.[10]设计了一种新的分裂准则，用于最大化决策树左右子节点的不同概率。Chickering et al.[3]重构了正常的决策树过程，并引入了一种将客户划分为不同群体的方法，使活动中的收益最大化。Radcliffe等[23]提出了一种基于显著性的分割准则来提高二元分类中的分割质量。Debaere et al.[5]设计了一个改进的RF模型来评估电子邮件活动中的提升。虽然这些方法经常出现，但它们很少被设计用于多处理任务。事实上，这些模式必须有能力确定在有限的资源下可以更好地采取哪些行动。

在观察研究领域，人们对评估治疗对结果的重要性越来越感兴趣[17,34,35]。在[17]中，提出的R-Learner使用基础损失最小化机器学习器来评估治疗和不治疗的结果以及倾向评分。在[35]中，倾向得分采用回归方法计算，以实现多治疗组案例中单一任务的平衡。在[34]中，使用倾向评分来平衡两组的中心时刻，同时检测其有统计学意义。

2.1问题的定义

2.2倾向得分匹配

3背景

元学习器，如T-learner, S-learner和X-learner[13]，是一个提升结构，可以利用任何机器学习算法来评估CATE。在本文中，为了进行公平的比较，我们还测试了使用RF进行多处理任务的t -学习者、s -学习者和x -学习者的性能。

4方法

在本节中，我们正式介绍了我们的新GRF生活模型。据我们所知，这两种算法都没有在之前的实际商业优化基础上扩展到多处理环境，因此我们通过评估在这个实际重要的环境中获得了多少利润来填补这一空白。我们提出的GMV lif t模型的主要思想是从各种营销策略中选择最合适的策略，同时考虑最小的成本，如图1所示。我们的GMV lif的详细构造如图2所示。通过我们的模型，不同的用户会得到不同的待遇，帮助企业获得最好的效益。此外，算法1和算法2显示了我们的GMV生活的逻辑。

4.1我们提出的grflift的分裂准则

uplift score 计算方式

传统的树分割准则基于最大类概率方法，而传统的隆起树分割方法则依赖于隆起的差异。

由于我们的目标是最大化处理集和控制集之间的GMV(商品价格×销售商品数量)差异，我们建议使用(18)中的数值操作的分割标准。特别地，在本文中，我们设计了GMV增益比率作为我们grf生存模型的分割准则，该模型是直接考虑利润的设计。GRF不是为分类问题输出大多数类类型，而是为每个组输出提升分数。根据这个分数，我们非常清楚地知道我们可以为不同的人群获得多少GMV，同时显示出最佳的治疗分配。治疗组与对照组的GMV差异，对照组定义为:

于特征集合f中的单个特征f, GMV增益如下所示:

其中G为GMV, NT为处理组样本数，NC为对照组样本数。N表示样本数。设N = NT + NC, N(f) = NT (f) + NC (f)。最后，f是特征集合f中的单个特征。为了更好地理解详细的分割方法，让我们考虑Fl和Fr分别是包括在特征集合f中的左子特征子空间和右子特征子空间。

我们的目标是在每棵决策树中使对照组和处理组之间的GMV差异最大化，即使用最合适的处理获得最大的GMV。对于每棵树，我们选择在所有处理组中导致GMV增加最大的处理作为最合适的处理。我们没有使用bagging方法，而是使用随机森林作为基础学习器，从不同的集合中重新采样和随机选择特征，有效地减少了单一树引起的过拟合问题。可以用我们的RF模型的相应分支对每种处理下的异常响应进行无偏估计。

因此，在产生最大GMV时选择处理。这实现了实现最大利润和选择最合适的处理之间的平衡。

4.2我们有针对性的正则化grflift

现在，我们提出算法1和算法2来分别描述我们提出的grfflift中的训练过程和预测过程的细节。图2显示了我们提出的模型的树图部分，其中给定一个数据d，如果d满足特征x 19的值大于5.0且遵循红线，则划分为左下角的叶节点，在处理为0.6时，该叶节点的提升分数为0.5969。

通过我们的模型，我们可以给任何用户分配最合适的待遇，吸引用户购买产品。最合适的待遇，就是既能吸引用户购买，又能使待遇给予的越少越好，从而保证利润最大化。

在线推理

5实验

5.1提升模型的评估指标和数据

评估隆升模型的评估隆升评估的一个重大挑战是，单个客户的实际情况是不可行的。换句话说，特定客户不具有被治疗或不同时治疗的状态。这使得无法直接计算测试集。因此，Precision、Recall和AUC等评价指标并不适合这项任务[7]。为了解决这一问题，利用隆起曲线和隆起曲线下面积(AUUC)[16]来可视化和量化隆起模型的性能。AUUC对累积隆起沿预测ITE排序的单峰进行评价。在我们的任务中，我们不只是预测用户是否会购买产品，而是准确地评估用户将分发多少治疗以及用户将产生多少GMV。因此，我们将原始AUUC修改为AUGUC (area Under the GMV-Uplift Curve)，以全面评估我们模型的性能。即使我们遵循最初的AUUC度量，AUGUC也代表了不同的含义。我们方法中的AUGUC可以量化为GMV上升。AUGUC越大，隆升模型表现越好。

其中Y为用户产生的GMV, n为数据量。原有的AUUC仅通过概率的方法考虑用户是否会购买该产品。另一方面，我们的AUGUC虽然与AUUC形式相同，但能够通过特定的数值形式很好地量化GMV的改善。

我们对三个数据集进行了综合评估，这些数据集可以在https://github.com/ HLaboratory/ grfllift /tree/main/dataset上找到。这三个数据集的特征是相同的。在忽略用户特征的情况下，使用行业提供的数据来测试我们模型的有效性。与行业提供的数据类似，我们也使用合成数据来检验我们的模型，它带来了更多的随机性。此外，通过观察数据来评估模型是否会受到用户特征的影响。

(1)行业提供的数据。我们通过H elloBike公司获得了随机实验数据，其中处理标记为ω1， ω2，ω3和ω4。特征的维数为96，包括Age, Gender, CityI D，剥皮频率等。治疗组和对照组的比例是平衡的。在这个数据集中，我们忽略用户的特征，将用户随机分为n + 1个组，其中n个处理组和1个对照组。

(2)观测数据。在实际测试过程中，我们通常采用大规模观测数据的随机试验来测试算法的有效性。但是，不能保证两组的特征相同，这违背了公平测试的原则。因此，在实际测试过程中，我们对观察到的数据计算倾向得分，使实验组和对照组具有高度一致的特征。在此基础上，可以对模型的实际可靠性进行检验。数据集是从我们的促销活动的在线实验中收集的。在观察数据中，我们根据用户的特征将其分为不同的组，其中一个重要的特征是Rinding f频率。区别对待不同群体会产生不同的GMV 。

(3)合成数据。尽管有原始数据，但在前面提到的这些估计中选择一个表现良好的估计是不具有说服力的，因为无法建立因果关系的基本事实。模拟合成数据的设计是为了反映抬升建模更有效的情况，其中有已知的地面真相。合成数据是基于泊松分布生成的。具体来说，合成数据中有10个特征，包括W工作经验、年龄、W等待时间、CityI D、P大米、App使用频率、Rinding频率、性别、骑行距离和T治疗价格。这些特征的出现次数分别为19、15、3、1、3、11、3、17、15和4。为了更有效地说明我们的模型在更多随机性下的有效性，我们也对合成数据进行了实验。因果推断领域经常使用合成数据，对这类数据的实验结果很有说服力。该数据的使用方式与行业提供的数据相同，但增加了更多的随机性。

5.2定量结果 Quantitative results

首先，为了展示我们提出的模型的性能，我们将我们的grfllift模型与基于RF的S-learner、T-learner和X-learner进行了比较，以进行公平的比较。其次，我们还利用KL散度将基于gmv的模型与原始抬升RF进行了比较，以直观地显示商业分析的程度。由于没有在所有情况下都令人满意的多个分布的单一散度度量，我们修改了多处理任务的kl -散度。

原来的提升射频与KL，我们主要修改为多处理设置。具体来说，我们计算每个治疗组和对照组之间的KL，即将多治疗任务转换为多个二元治疗任务。在二元任务中，测试A中，基于klk的提升RF计算为。

值得一提的是，所有基准模型中使用的评估指标都是AUGUC。这些数据集分别被分割为70%、20%和10%用于训练、验证和测试。所有模型都经过5倍交叉验证仔细调整。对于t -学习者、s -学习者和x -学习者，我们选择随机森林作为基础模型，其中每个模型的分割准则是GMV差。

表2不同数据集AUUC的比较。KL表示原始的基于rf的隆起模型，采用KL散度，GMVreg表示GMV lift模型的性能。

grfllift模型的性能最好，略好于没有正则化项的模型。考虑到GMV，模型GMV和GMV reg的精度远大于其他三个模型。结果表明，以GMV差值作为评价指标是可行的。

劈裂判据可以直接有效地量化隆升。值得注意的是，在三个处理任务中，原始隆起模型“KL”在行业数据上甚至实现了负隆起，这意味着原始隆起树模型不适合支持多处理任务。虽然我们的模型主要解决了多处理问题，但它也有效地改善了单一处理问题。例如，从图2中可以看出，在单一处理任务中，GMVreg在Industry和Synthetic数据上的AUUC分别为0.7421和0.9122，与基线“KL’(表2)”相比，AUUC分别提高了48.3%和40.4%。

5.3消融实验 Ablation experiments

为了进一步验证我们的主要贡献，我们比较了我们方法的不同变体，分别包括无正则化项和倾向匹配。首先，图5和表5显示了不匹配倾向分数时观测数据对应的隆起曲线和AUUC分数。倾向评分匹配的有效性在观察数据中得到了清晰的体现。从表5可以看出，在没有倾向的情况下，单次处理、2次处理、3次处理和4次处理任务的AUUC分别下降3%、2.6%、2.7%和1.9%。这验证了倾向分数匹配技巧的良好性能。

其次，关于正则化项的效率，图4和表4显示了不存在正则化项时，行业数据和合成数据上对应的上升曲线和AUUC得分。例如，在Synthetic数据上进行测试，在单个处理任务中，正则化项在Industry data和Synthetic data的AUUC方面分别提高了3.1%和1.4%，在四个处理任务中分别提高了0.3%和2.1%。这说明，有了目标正则化项，我们的模型克服了由于第4.2节中提到的分裂过程的缺点而导致的偏倚结果。

6结论

目前，由于信息的整合，我们见证了大量关于预测用户购买的工作，主要是使用时间序列和分类模型。然而，尽管这些模型有很多潜力，但并不适合预测条件平均处理效果。而采用抬升建模，为不同人群分配不同的待遇，既吸引顾客购买产品，又减少不必要的待遇分配，从而保证利润最大化。

在本文中，我们提出了GRF lif，以扩展多处理任务的RF。据我们所知，这是第一个考虑提升模型中GMV和目标正则化项来直接量化不同处理下的利润的工作。我们关注的是在真实工业场景中出现的多重治疗问题，其中有多种可能的治疗方法。同时，利用目标正则化项，根据一定的特征解决了分割过程中的数据不平衡问题。对真实工业数据、合成数据和观测数据进行了测试，与其他流行的方法(包括s - learn、t -learn、x -learn和原始的基于rf的提升模型)相比，该模型表现出优越的性能。

事实上，在现实场景中，机器学习模型很容易训练，而不是在给定有限数据的情况下使用深度神经网络。这些机器学习模型需要更少的训练时间和计算资源(例如gpu)。相反，将深度学习模型应用到实际项目中更加困难，通常需要大量的手工调试。底线是，如果深度学习带来的准确性提升不是那么明显，那么对可扩展性和开发速度的需求就会压倒深度学习带来的价值。该模型易于应用于实际场景，具有较高的可解释性。

未来，对于商业领域，我们计划通过考虑其他商业术语，如净利润和投资回报率，研究其他技术来进一步提高提升性能。此外，我们的目标。将我们的模型应用到其他领域，例如医疗分析，在这些领域，对不同的患者给予不同的药物或不同的治疗水平至关重要。