Cost-Effective and Stable Policy Optimization Algorithm for Uplift Modeling with Multiple Treatments
The 2020 SIAM International Conference on Data Mining
Abstract
uplift模型是一种 causal-based personalization 的方法,目标是优化treatment,在医学和市场营销等不同领域都很有应用前景。然而,应用uplift模型也面临着挑战,例如二元 treatment 的局限性和很难验证。Contextual Treatment Selection(CTS)是为了克服二元treatment的局限性而提出的,并显示了state-of-the-art 的结果。然而,之前的实验表明,由于CTS需要大量的训练数据,所以它是成本低效的。本文证明了CTS中最大化的估计量是有偏估计。然后,本文提出了一种基于doubly robust estimation technique的variance reduced estimator,它提供了无偏性和期望方差。本文进一步提出了一种treatment策略优化算法,称为VAriance Reduced Treatment Selection(VARTS)。对合成数据集和真实数据集的经验实验表明,本文的方法优于其他现有方法,特别是在小样本量和高噪声水平等现实条件下。这些理论和实证结果表明,我们的方法能够克服uplift建模的关键挑战,应该成为各个领域个性化优化的首选。
1 Introduction
在各种现实问题中,选择收益(profit of interest)最大化的 treatment 是非常重要的。例如,广告公司需要向每个用户发送最合适的广告,以实现最高的转化率。在医学上,应该从众多的医疗方法中为每个患者选择最有效的医疗方法。准确地估计treatments的因果效应(causal effects)是得出最优策略的关键。传统上,the average treatment effect(ATE)是整个人群的净效应,用来选择单一的最佳的treatment。ATE是通过随机对照试验(randomized controlled trials, RCT)对subjects随机treatment,并平均每个outcomes来估计ATE。然而,这种treatment并不总是最佳的。例如,对整个患者群体最好的医疗治疗可能会对某些患者产生负面影响。换言之,为每个病人找到一个最佳的个性化治疗是很重要的。
uplift建模是优化 the expected response of a treatment policy 的一个很有前途的领域。其目的是通过使用专门方法来处理counterfactual结果的不可观察性,以制定最佳策略,从而最大限度地提升response。通过个性化的放射治疗提高乳腺癌患者的生存率,通过优化航班预订定价策略来提高航空公司的收入,许多领域已经应用了uplift modeling methods。
尽管如此,大多数 uplift modeling methods 仅适用于 binary treatment 问题。这种局限性是很严重的,因为多重treatment优化问题是普遍存在的,例如在药物选择方面。此外,准确评估policy的performance是不可能的,因为counterfactual的结果是不可观察的(无法验证)。因此,实际应用需要注意保证在一系列 settings 下的模型性能的稳定。然而,策略优化算法的度量估计方差或最坏情况下的性能尚未得到充分研究。综上所述,迫切需要一种能够在multiple treatment settings下直接、稳定地最大化response的treatment policy optimization algorithm。
在multiple treatment optimization方法中,Separate Model Approach (SMA) 是最简单、最常用的方法。训练预测模型来预测每种 treatment 的 outcomes,并为新数据选择预测值最佳的 treatment。SMA很容易实现,因为它不需要专门的算法。然而,SMA不能捕捉causal signals ,因为它不能直接预测causal effects ,并且常常高估与outcomes有关的特征,而不是causal effects。
为了克服SMA的缺点,提出了Contextual Treatment Selection(CTS)。CTS直接使树构造过程中的局部期望响应估计最大化,是目前唯一一种能够同时处理多个treatments和连续outcomes的算法。然而,CTS的estimator存在较大的方差,而且为了保证性能,需要收集大量的数据。这是因为它只使用factual(实际的,即观察到的)outcomes来估计局部的response,而忽略了counterfactual的outcomes。实验结果表明,CTS需要大量的训练数据才能有效。这限制了CTS在现实世界中的适用性。
本文证明了由于方差缩减的正则化,CTS优化的局部response实际上是有偏的。然后,提出了一种基于双稳健估计(the doubly robust estimator)的方差缩减局部期望响应estimator(a variance reduced local expected response estimator),该estimator在其他文献中得到了很好的证明。该方法可用于准确估计预期响应,但尚未应用于提升树方法。我们的理论分析表明,我们的estimator是无偏的,与naive的方法相比,具有更小的方差和更紧的估计误差尾界(tighter estimation error tail bound)。我们进一步提出了一种treatment policy优化算法,称为方差减少治疗选择(VAriance Reduced Treatment Selection, VARTS),学习过程中最大化我们的estimator。最后,在合成数据集和真实数据集上进行了大量的实验,以证明所提出的估计器和算法的有效性。
本文主要贡献如下:
- 研究了CTS的理论和经验性质,并表明该算法最大化的估计量实际上是有偏的。
- 提出了一个方差缩减估计,并证明了它是无偏的,可以获得更小的方差和更紧的估计误差尾界。
- 提出了方差最小化估计量最大化的VARTS算法。
- 使用合成数据集和真实世界数据集,通过经验证明了所提估计器和算法的有效性。
2 Problem Setting
Here, we formulate the uplift modeling with multiple treatments.
2.1 Notation 给定一组由i索引的N个对象(individuals),将 X i ∈ X X_i\in \mathcal{X} Xi∈X定义为每个对象的特征向量。 考虑treatments T, W i ∈ { 0 , 1 , 2 , . . . , T − 1 } = T W_i\in \{0,1,2,...,T-1\} =\mathcal{T} Wi∈{
0,1,2,...,T−1}=T为代表i的treatment的分类随机变量。 当i接受treatment t t t时, W i = t W_i=t Wi=t。 假设数据是通过RCT收集的,并且特征向量和treatment在统计上是独立的(即 X i ⊥ W i X_i\perp W_i Xi⊥Wi)。 我们还使用 p ( t ) p^{(t)} p(t)表示treatment的概率(即 p ( t ) = P ( W i = t ) p^{(t)}=P(W_i=t) p(t)=P(Wi=t))。
在这里,我们遵循Rubin causal model,假设每个数据都存在与treatments T相对应的T潜在outcomes: Y i = ( Y ( 0 ) , Y ( 1 ) , . . . , Y ( T − 1 ) ) ∈ Y T Y_i=(Y^{(0)}, Y^{(1)}, ..., Y^{(T-1)})\in \mathcal{Y}^T Yi=(Y(0),Y(1),...,Y(T−1))∈YT。uplift模型的根本问题是只能观察到与已实现的treatments相对应的outcome。令 Y i o b s Y^{obs}_i Yiobs为观察到的结果;当 W i = t W_i=t Wi=t时, Y i o b s = Y i ( t ) Y^{obs}_i=Y^{(t)}_i Yiobs=Yi(t),而其他outcome仍然是counterfactual。
此外,我们使用 μ i ( t ) \mu^{(t)}_i μi(t)表示每个unit的预期潜在outcome,这意味着 μ i ( t ) = E [ Y i ( t ) ∣ X i = x i ] \mu^{(t)}_i=E[Y^{(t)}_i|X_i=x_i] μi(t)=E[Yi(t)∣Xi=xi]。我们使用 D ^ = { ( x i , w i , y i o b s ) ) } i = 1 N i i d P ( X , W , Y ) \hat{D}=\{(x_i,w_i,y_i^{obs}))\}_{i=1}^N~~iid~~P(X,W,Y) D^={
(xi,wi,yiobs))}i=1N iid P(X,W,Y) 作为N个独立数据和相同分布数据的经验分布。
在我们的理论分析中, n ϕ n_{\phi} nϕ和 D ϕ D_{\phi} Dϕ分别代表 ∑ i = 1 N I { x i ∈ ϕ } \sum_{i=1}^NI\{x_i\in \phi\} ∑i=1NI{
xi∈ϕ}和 P ( X , W , Y ∣ x i ∈ ϕ ) P(X,W,Y|x_i\in \phi) P(X,W,Y∣xi∈ϕ),其中 ϕ ∈ X \phi\in \mathcal{X} ϕ∈X是特征空间的任意子集。
2.2 Treatment Policy and Expected Response treatment policy h ( ⋅ ) h(·) h(⋅) 是从特征空间到treatment空间的映射。 认为以下面的 EXPECTED RESPONSE 是a treatment policy的the performance metric;本文的主要关注点是提出一种优化该指标的算法。
Definition 2.1. (Expected Response) Given a treatment policy h h h, the expected response is V ( h ) = E X [ E Y [ Y ( h ( X ) ) ∣ X ] ] V(h)=E_X[E_Y[Y^{(h(X))}|X]] V(h)=EX[EY[Y(h(X))∣X]]
最佳treatment policy h ∗ h^* h∗是输出对应于具有最高期望值的outcome的treatment policy: h ∗ ( x i ) ∈ a r g m a x t ∈ T E [ Y i t ∣ X = x i ] ] h^*(x_i)\in argmax_{t\in \mathcal{T}}E[Y^{t}_i|X=x_i]] h∗(xi)∈argmaxt∈TE[Yit∣X=xi]]
3 Existing CTS Algorithm
本节讨论现有的state-of-the-art的treatment policy optimization algorithm called CTS。 CTS的主要思想是逐步个性化treatment方案,以在分割特征空间的同时最大化the estimated expected response。
3.1 Split Criterion of CTS 令 x ∈ ϕ x\in \phi x∈ϕ为树的节点; 然后,我们用 S S S表示二元分割 s s s的候选集, s s s将树的节点分割为两个子节点: ϕ l ( s ) ⊂ ϕ , ϕ r ( s ) ⊂ ϕ \phi_l(s)\subset \phi, \phi_r(s)\subset\phi ϕl(s)⊂ϕ,ϕr(s)⊂ϕ。 令 V ( ϕ , t ) = E [