基于深度概率模型的用户生命周期价值预测

游戏数据科学

已于 2024-07-28 22:14:01 修改

阅读量301

点赞数 4

分类专栏：用户生命周期价值预测用户数据大模型文章标签：机器学习预测用户付费游戏AI应用深度学习

于 2024-07-28 22:04:46 首次发布

本文链接：https://blog.csdn.net/hahoo2009/article/details/140757268

版权

用户生命周期价值预测同时被 2 个专栏收录

11 篇文章 0 订阅

订阅专栏

用户数据大模型

11 篇文章 0 订阅

订阅专栏

基于深度概率模型的用户生命周期价值预测

作者：Xiaojing Wang, Tianqi Liu, Jingang Miao

摘要

根据用户的属性和过去的购买行为准确预测其未来的生命周期价值（LTV）可以实现更以用户为中心的营销策略。营销人员可以根据预测的LTV将用户分成不同的类别，从而定制营销信息或广告文案，以更好地服务于不同类别的用户。此外，LTV预测还能直接指导营销预算的分配，并改进广告展示的实时定位和竞价。

LTV建模的一个挑战是，有些用户从未回头，其LTV的分布可能具有重尾特性。常用的均方误差（MSE）损失无法适应一次性购买者的显著零值LTV比例，并且对高消费用户的极大LTV值非常敏感。在本文中，我们将LTV的分布建模为零点质量和对数正态分布的混合，我们称之为零膨胀对数正态（ZILN）分布。这种建模方法使我们能够同时捕捉流失概率并考虑LTV的重尾特性。它还提供了点预测的不确定性量化。ZILN损失可以用于线性模型和深度神经网络（DNN）。对于模型评估，我们建议使用归一化Gini系数来量化模型的区分能力，并使用十分位图来评估模型校准情况。通过实证，我们在两个真实世界的公共数据集上展示了所提出模型的预测性能。

1 引言

市场营销人员越来越需要在较长的时间范围内（如一年、两年甚至五年）准确预测用户的未来购买行为。这种长期预测通常被称为用户生命周期价值（CLV或LTV）。LTV预测不仅有助于公司的财务规划，还能为营销决策和用户关系管理（CRM）提供指导。有了LTV预测，用户可以轻松地被分为不同的价值类别。随后，营销人员可以决定如何改进营销支出的分配，并确定促销优惠、个性化用户信息、独家优惠、忠诚度奖励计划和“白手套”用户服务待遇的理想目标受众。

关于现有用户LTV预测的文献已经相当丰富。许多发展围绕RFM（Recency, Frequency, Monetary Value，即最近购买、购买频率、货币价值）框架的扩展（Khajvand et al., 2011）。最著名的方法是Buy Till You Die（BTYD）模型族（Fader et al., 2005b; Fader & Hardie, 2009）。这是一种用于重复购买和用户流失的概率生成模型。假设用户流失和购买行为都遵循某种随机过程。多种变体（Schmittlein et al., 1987; Fader et al., 2005a; 2010）存在，以处理离散时间购买事件数据或减少计算负担。

在本文中，我们专注于新用户的LTV预测，这方面的研究相对较少。预测新用户的LTV对广告业务至关重要。例如，营销人员可以将预测视为关键绩效指标（KPI），并随着时间的推移进行监控，以持续评估用户获取营销活动的表现。BTYD模型族不适用于新用户，因为它使用频率和最近购买来区分用户。而新用户的购买频率和最近购买是相同的。预测信号必须从其他地方提取——要么是用户注册时获得的用户属性，要么是初次购买的产品或服务类型。

我们通过监督回归来预测新用户的LTV。与BTYD模型族相反，监督回归利用所有用户级别的特征。它不尝试建模用户流失或重复购买的底层动态，而是最小化指定的预测误差。对于回归任务，许多标准的机器学习方法都可以使用，包括线性回归、随机森林、梯度提升、支持向量机。我们选择深度神经网络（DNN）作为我们的主力工具，因其具有竞争力的表现以及捕捉预测特征与LTV之间复杂和非线性关系的能力。

对于财务规划来说，预测总体业务指标相对容易。然而，准确预测单个用户的LTV则要困难得多。这个回归问题主要有两个数据挑战。首先，许多用户是一次性购买者，再也不会购买，导致许多零值标签。其次，对于回头客来说，LTV是波动的，LTV的分布高度偏斜。少数高消费用户可能占总用户消费的很大一部分，这体现了80/20法则的精神。

尽管均方误差（MSE）在回归建模中占据主导地位，但在LTV预测的背景下，它并不是处理这些数据挑战的理想选择。MSE忽略了LTV标签是零值和连续值的混合事实，并迫使模型学习两个分布的平均值。平方项对异常值也非常敏感。大多数大规模训练算法使用随机梯度下降，从训练样本的小批量中计算出的噪声和偶尔爆炸的梯度很容易导致数值不稳定或收敛问题。

我们提出了一种基于零膨胀对数正态（ZILN）分布的混合损失。该损失通过设计处理零值和极大LTV标签。

与传统回归模型相比，结合ZILN损失的DNN架构有几个优势。首先，它能够同时预测流失概率和LTV值。它减少了构建两阶段模型的工程复杂性（Vanderveld et al., 2016）——一个用于预测重复购买倾向的二元分类模型，随后是一个用于预测第一阶段预测的回头客LTV的回归模型。其次，它提供了LTV的全概率分布，从而允许点预测的不确定性量化。

对于模型评估，我们建议使用归一化Gini系数来衡量模型区分高价值用户和低价值用户的能力。由于其对异常值的鲁棒性和更好的业务解释，它比MSE更受欢迎。我们还建议使用十分位图来定性地衡量模型校准。

本文的其余部分组织如下。第2节简要回顾相关工作。第3节介绍了提出的DNN模型及其ZILN损失。我们在第4节描述了用于模型评估的归一化Gini系数和十分位图，并在多个公共领域数据集上实证展示了提出的模型。最后，第5节总结了我们对LTV预测模型的讨论。

2 相关工作

Gupta等人（2006）对LTV方法进行了全面回顾。他们提供的证据表明，机器学习方法如随机森林（Breiman, 2001）比历史上流行的RFM和BTYD模型表现更优，因为它们可以结合各种额外的特征。

Vanderveld等人（2016）和Chamberlain等人（2017）使用两阶段随机森林模型来预测电商网站用户的LTV。第一阶段预测购买倾向——即用户在指定时间窗口内是否会购买的二元分类。第二阶段预测在第一阶段预测为会购买的用户的购买金额。两阶段方法是构建LTV预测的一种自然方式，并提供了对驱动LTV的不同因素的洞察。主要缺点是维护两个模型的复杂性增加。

另一种两阶段方法是分别为购买频率和平均订单价值（或利润）构建回归模型，然后将它们结合成LTV预测模型（Venkatesan & Kumar, 2004）。这种策略也可以在RFM和BTYD框架中找到。Fader等人（2005b）假设最近购买和频率符合帕累托/负二项分布（Pareto/NBD），购买价值则遵循独立的Gamma/Gamma分布。然而，这种分解依赖于一个不稳定的假设，即订单价值与购买频率独立。在实践中，例如，频繁购买者可能每次购买的花费较少。

许多研究人员更倾向于直接预测LTV的方法，这更直接且通常能带来更高的预测准确性（Gupta等人，2006）。Malthouse & Blattberg（2005）使用LTV作为回归模型中的因变量。作者还考虑了LTV的各种变换，包括Box-Cox变换（Sakia, 1992），以稳定回归模型中的方差，平方根或对数变换以使LTV的分布不那么右偏。然而，这些变换使得预测结果在设计上存在偏差。例如，由于Jensen不等式，对数变换变量期望的指数不大于原始变量的期望。

Benoit & Van den Poel（2009）提倡一种分位数回归方法，该方法对响应变量的条件分位数（如中位数）进行建模，而不是标准最小二乘回归的条件均值建模。使用标准均值回归技术，每个用户返回一个LTV的单点估计。然而，这个点估计不包含关于观测值围绕预测值分散的信息。基于渐近正态性可以获得预测区间，但分位数回归提供了一种更有原则的方法来量化与LTV预测相关的不确定性。例如，可以通过预测的第5和第95百分位数给出LTV的90%预测区间。

Chamberlain等人（2017）认识到LTV的异常分布。大部分用户的LTV为零。对于LTV为正的用户，其值相差几个数量级。作者通过对LTV的百分位数排名建模并随后将其映射回实际值来解决这个问题，以用于下游任务。Sifa等人（2018）在自由游戏玩家的LTV预测背景下解释了类似的问题。只有一小部分用户曾经购买过，并且驱动了大部分收入。作者建议使用合成少数类过采样技术（SMOTE）（Chawla等，2002）训练DNN，以获得更好的预测性能。SMOTE是一种数据增强技术，在模型训练阶段创建少数类的合成实体，以正则化预测模型并学习表示少数类实体的结构。

Chamberlain等人（2017）发现，具有足够隐藏单元的DNN可以达到与随机森林相当的性能。作者还表明，对于用户流失预测，宽深模型（Cheng等人，2016）可以进一步提高性能，因为它结合了宽线性模型（用于记忆）和深度神经网络（用于泛化）的优势。

3 带有ZILN损失的DNN模型

回归标签是初次购买后固定时间范围内用户的总消费金额。我们排除了首次购买的价值，因为我们主要关注用户的未来剩余价值。为了避免季节性波动，最好使用确切的预测年数。实际上，预测范围通常是1年、2年或3年。由于构建训练标签所需的历史数据长度，长期模型通常不可行。例如，Vanderveld等人（2016）和Chamberlain等人（2017）选择预测1年的预测范围。

回归特征可以从各种来源提取。当可用时，购买历史通常是特征工程的主要来源。其他常见特征包括用户人口统计、用户群组、退货历史、用户服务的质量指标。Vanderveld等人（2016）使用最终购买决策前的用户参与度来预测电商网站用户的LTV。这些特征包括营销邮件的打开和点击次数、交易展示和搜索次数。Sifa等人（2018）使用与活动相关的指标预测免费游戏玩家的LTV，如会话次数、回合数和游戏天数、购买的游戏内货币数量；行为的时间模式，如首次和最后一次会话之间的时间、会话间和天间时间分布；元特征，如来源国家、设备类型、操作系统和用户获取渠道。Chamberlain等人（2017）将手工特征与从用户产品浏览的会话和应用日志中学习到的无监督神经嵌入相结合。最终的模型不仅了解领域知识，还能从原始数据中学习用户行为的丰富模式。

我们选择DNN作为LTV预测的主力工具，原因有三：性能、灵活性和可扩展性。DNN在计算机视觉、语音识别、推荐系统、自然语言处理等多个领域取得了近期的成功。从其在在线数据科学竞赛中的流行度来看，DNN在表格数据上具有非常有竞争力的性能，因为它能够捕捉特征与标签之间复杂且非线性的关系。DNN也非常灵活。可以轻松定制其损失函数，使其成为我们ZILN损失的理想模型。它可以优雅地处理所有类型的特征，包括数值特征、类别特征甚至多值特征。稀疏的类别特征可以编码为嵌入并以监督方式学习。深度学习框架如TensorFlow和Pytorch提供了高度可扩展的DNN实现，能够处理拥有数百万甚至数十亿用户的非常大数据集。

图1：典型LTV分布的示意图。很大比例的用户是一次性购买者。回头客的LTV可能会有数量级的差异。

LTV标签的分布对标准的MSE回归损失提出了一些挑战。我们在图1中展示了某典型在线广告商的用户LTV分布。零值的巨大峰值表明有大量一次性购买者，其LTV为零。对于回头客来说，LTV的范围也很广。少数高价值用户的消费金额比典型用户高出几个数量级。MSE可能会对高价值用户的预测误差进行过度惩罚。模型训练也可能变得不稳定并对异常值敏感。将MSE损失替换为分位数损失可以缓解异常值问题，但模型将无法再预测均值LTV，而这通常是需要的。

我们提出了一种混合损失，该损失源自ZILN分布的负对数似然。这样的混合损失能够同时学习购买倾向和货币价值。由此产生的模型的工程复杂度是两阶段模型的一半——通常是一个二元分类模型用于预测购买倾向，然后是一个回归模型用于预测被预测为购买的用户的货币价值（Vanderveld et al., 2016）。重尾对数正态分布仅取正值且具有长尾，是建模回头客LTV分布的自然选择。从数学上讲，对数正态损失（记为 $L_{\text{Lognormal}}$ ）源自具有均值 $m u$ 和标准差参数 $\sigma$ 的对数正态随机变量的负对数似然：

$L_{\text{Lognormal}}(x; \mu, \sigma) = \log(x\sigma\sqrt{2\pi}) + \frac{(\log x - \mu)^2}{2\sigma^2}$

可以将其视为对数变换后的 $X$ 上的加权MSE，其中标准差参数 $\sigma$ 起到加权作用。此外，标准差参数也可以像均值参数一样依赖于输入特征，这意味着LTV服从异方差对数正态分布。获得 $\sigma$ 的良好估计是至关重要的，因为它直接影响均值预测的无偏性，公式如下：

$\exp \left( \mu + \frac{\sigma^2}{2} \right)$

图2：将MSE损失与对数正态损失作为均值参数 $\theta$ 的函数进行比较，单一观测值为 $x = 20$ 。

我们在图2中比较了MSE和对数正态损失。结果显示，MSE损失在观测值周围对称惩罚，而对数正态损失对高值的惩罚较少。随着 $\sigma$ 增加，最小化点（argmin）也会增加。

ZILN损失可以类似地推导为服从ZILN分布的随机变量的负对数似然，其非零概率为 $p$ ：

$L_{\text{ZILN}}(x; p, \mu, \sigma) = - \mathbb{1}\{x=0\} \log(1 - p) - \mathbb{1}\{x>0\} (\log p - L_{\text{Lognormal}}(x; \mu, \sigma))$

其中 $\mathbb{1}$ 表示指示函数。

损失可以分解为两部分——第一部分对应于用户是否为回头客的分类损失，第二部分对应于回头客LTV的回归损失：

$L_{\text{ZILN}}(x; p, \mu, \sigma) = L_{\text{CrossEntropy}}(\mathbb{1}\{x>0\}; p) + \mathbb{1}\{x>0\}L_{\text{Lognormal}}(x; \mu, \sigma)$

图 3：具有 ZILN 损失的 DNN 网络结构。 $p$ 表示回头客的概率； $\mu$ 和 $\sigma$ 分别指回头客 LTV 的对数正态分布的均值和标准差参数。

我们在图3中展示了网络的可视化。DNN的最后一层有三个预激活logits单元，分别确定回头购买概率 $p$ 、回头客LTV的均值 $\mu$ 和标准差 $\sigma$ 。三个激活函数分别是sigmoid、identity和softplus。DNN的中间层本质上是两个相关任务的共享表示——回头客的分类和回头客消费的预测。这个架构鼓励模型在每个任务上更好地泛化，这与多任务学习的核心思想一致（Ruder, 2017）。

ZILN损失的另一个关键优势是它提供了完整的预测分布。我们不仅获得了回头购买的概率，还获得了回头客LTV的值分布。除了均值LTV预测之外，还可以使用对数正态分布的分位数评估LTV预测的不确定性，如一般分位数回归中那样。

4 评估指标

对于回头客与非回头客的二分类问题，可以直接采用标准分类指标，如接收者操作特征曲线下面积（AUC）（Coussement等，2010；Lemmens & Croux，2006）或精确度-召回曲线下面积（AUC_PR）（Boyd等，2013）。AUC 是一种具有概率解释的判别度量。给定一个随机选择的回头客和一个随机选择的非回头客，AUC 是分类器正确预测回头客具有比非回头客更高回头概率的概率。AUC 介于 0.5 和 1 之间。值越接近 1，分类器在区分回头客与非回头客时的效果越好。

对于用户生命周期价值（LTV）预测的回归问题，常用的度量（如均方误差（MSE）或平均绝对误差（MAE））对于我们的 ZILN 损失不太合适。当使用 MSE 作为训练损失时，均值回归可以实现最佳预测性能，而当 MAE 作为训练目标时，分位数回归表现优异。特别是 MSE 会放大大的预测误差，并在训练中倾向于过度强调高价值用户。

传统上，皮尔逊相关性（Donkers等，2007；Vanderveld等，2016）被用来评估实际和预测 LTV 之间的预测质量。然而，该度量可能对数据中的异常值敏感。Chamberlain 等（2017）使用斯皮尔曼等级相关性作为更稳健的替代方法。

我们从两个方面评估 LTV 模型的预测性能：区分能力和校准能力。模型区分能力表示模型区分高价值用户与其他用户的能力。模型校准能力指实际 LTV 与预测 LTV 之间的一致性。

4.1 模型区分能力

Donkers 等（2007）提出了命中率度量，即预测 LTV 与真实 LTV 落入同一类别的用户百分比。例如，如果最有价值的 25% 用户的 LTV 超过 200，则命中率衡量这些用户中有多少人的预测 LTV 也超过 200。Malthouse & Blattberg（2005）还考虑了一种基于排序的命中率。对于上述示例，它衡量基于实际 LTV 的前 25% 用户中有多少人的预测 LTV 在预测 LTV 的前 25% 中。

我们考虑一种广义命中率的度量，但不需要指定命中率水平或百分位数。意大利统计学家和社会学家 Corrado Gini 在一个多世纪前提出了基尼系数或基尼指数（Gini，1997）。它经常用于经济学中衡量收入或财富分配的不平等。标签基尼系数可以通过三个步骤计算得出：

按降序排列真实 LTV（注意，原始定义是按升序排列，我们更改它以便更直接地解释高价值用户）。
绘制洛伦兹曲线（Gastwirth，1972），显示总 LTV（y 轴）相对于用户累计百分比（x 轴）的累计百分比。曲线上的一个点 (x, y) 表示前 x% 的用户占总用户价值的 y%。当 (x, y) = (20, 80) 时，它成为众所周知的 80/20 法则（Trueswell，1969），也称为帕累托原理。
基尼系数是洛伦兹曲线和 45° 对角线之间面积的两倍，对角线对应于随机排序的用户。它反映了用户支出的不平等程度——值越大，分配的不平等程度越高。

图 4：增益图示例。我们比较了两个预测模型 A 和 B。增益曲线上的每个点 $(x, y)$ 表示预测的前 $x\%$ 用户贡献了总收入的 $y\%$ 。模型 A 在区分用户方面优于模型 B。Ground truth 指的是通过按真实 LTV 排序用户构建的洛伦兹曲线。

我们通过在排序步骤 1 中用预测 LTV 替换真实 LTV 来计算模型基尼系数。步骤 2 中生成的图表也称为累积增益图（Berry & Linoff，2004）。我们在图 4 中展示了一个典型的图表，其中包含洛伦兹曲线（按真实 LTV 排序）和两个模型曲线（按预测 LTV 排序）。模型曲线越接近洛伦兹曲线，模型区分用户的效果越好。由于其解释性和与 80/20 法则的紧密相似性，生成的模型基尼系数更能引起营销专业人士的共鸣。

与 AUC 类似，模型基尼系数是一种判别度量。对于任何二分类器，基尼系数等于 AUC 的两倍减去 1。模型基尼系数纯粹基于预测的排名，对模型校准误差（将在下一节讨论）不敏感。当用例是基于预测 LTV 对用户进行细分时，它特别有用。

模型基尼系数与标签基尼系数之间的比率产生了归一化模型基尼系数。它介于 0 和 1 之间，完美 LTV 预测达到上限，对用户随机排序对应于下限。归一化基尼系数可以看作是命中率标准的扩展，但无需指定命中率水平或百分位数。

我们通过在步骤 1 中用首次购买值替换真实 LTV 来计算第三种类型的基尼系数。我们称之为基线基尼系数。首次购买值与 LTV 之间的高度相关性使基线基尼系数成为任何模型基尼系数的合理且实际的下限。基线基尼系数的进一步改进可以归因于其他预测信号的添加，如用户属性、首次购买的元数据以及首次购买前的非购买行为。

4.2 模型校准能力

对于二分类问题，校准图（Cohen & Goldszmidt，2004）已被广泛采用以评估产生连续概率预测的软分类器。校准图是一个拟合优度诊断图，x 轴为预测概率，y 轴为正标签的比例。例如，如果我们预测成为高价值用户的概率为 20%，则具有此预测的 100 个用户中大约应有 20 个是高价值用户。完美预测应在 45 度线上。

对于回归问题，校准图变成一个简单的散点图。当标签具有高度偏斜的分布时，如我们的 LTV 问题，散点图可能难以在小预测区域中说明校准情况。为了改进图形展示，我们在十分位图中按预测十分位绘制标签，这是累积增益图和提升图（Berry & Linoff，2004）的近亲。对于每个预测十分位，我们将平均预测值和平均标签值并排比较。

图 5：十分位图示例。左侧图显示了一个校准不良的模型，在高十分位数中预测过高，在低十分位数中预测过低。右侧图显示了一个校准良好的模型，其中每个十分位数的预测 LTV 与真实 LTV 紧密匹配。

一个校准良好的模型应在每个预测十分位中预测均值与标签均值紧密匹配。图 5 显示了模型校准不良和良好的示例。

此外，十分位图提供了模型区分能力的定性评估。区分能力更好的模型在十分位之间的差异比区分能力差的模型更大。

除了对十分位图的视觉检查，我们建议使用十分位级别的平均绝对百分比误差（MAPE）作为模型校准的定量测量。设 $ \hat{y}_i $ 和 $ y_i $ 分别表示第 i 个预测十分位中用户的预测均值和标签均值。MAPE 计算公式为：

$\text{MAPE} = \sum_{i=1}^{10} \frac{|\hat{y}_i - y_i|}{y_i}$

5 数据实验

我们使用两个公共领域的数据集来评估我们提出的模型的预测性能。

5.1 KAGGLE ACQUIRE VALUED SHOPPERS CHALLENGE

Kaggle Acquire Valued Shoppers Challenge 竞赛的数据集包含来自 33K 公司的 311K 用户的完整购物历史。我们考虑预测每个用户在初次购买后的未来 12 个月内的总购买价值。模型特征包括初次购买金额、购买的商品数量，以及每个购买商品的商店连锁、产品类别、产品品牌和产品尺寸。

我们将实验限制在基于用户数量的前二十家公司，并专注于在 2012-03-01 到 2012-07-01 之间首次购买的用户群体。对于每家公司，我们随机选择 80% 的用户进行模型训练，剩余 20% 用于模型评估。

我们从两个方面进行实验：模型架构和损失函数。考虑了线性模型和 DNN 模型。ZILN 损失与 MSE 损失进行了比较。我们还报告了回头客预测的二分类结果。

我们使用 TensorFlow 框架实现我们的模型。按照标准做法，对于分类特征，我们在线性模型中使用独热编码，在 DNN 中使用嵌入。对于 DNN，我们考虑了两个隐藏层，分别有 64 和 32 个单元。我们将每个模型训练最多 400 个 epoch，批量大小为 1,024，并使用 Adam 优化器（Kingma & Ba，2014），学习率为 2e-4。我们还应用了早停规则以防止过拟合。

斯皮尔曼相关性

表 1：Kaggle Acquire Valued Shoppers Challenge 数据集上真实 LTV 与预测 LTV 之间的斯皮尔曼相关性（数值越高越好）。

表 1 报告了每个模型的斯皮尔曼相关性。ZILN 损失优于 MSE 损失，线性模型的斯皮尔曼相关性平均高 23.9%，DNN 高 48.0%。对于 ZILN 损失，由于 DNN 的模型灵活性和复杂性，DNN 比线性模型平均提高 2.2%。

模型区分能力

表 2：Kaggle Acquire Valued Shoppers Challenge 数据集上的归一化基尼系数（数值越高越好）。

表 2 总结了四个模型和基线模型的归一化基尼系数，其中基线模型按初次购买金额对用户进行排序。与基线模型相比，DNN-MSE、DNN-ZILN 和线性-ZILN 的平均相对改进分别为 10.6%、23.1% 和 21.3%。另一方面，带有 MSE 损失的线性模型在某些情况下表现不如基线模型，表明在存在异常值的情况下，迷你批量训练的收敛问题。ZILN 损失在线性模型（28.6% 相对改进）和 DNN（11.4% 相对改进）中均优于 MSE 损失。由于其模型灵活性和标签分布的表征，带有 ZILN 损失的 DNN 实现了最佳的模型区分能力。

模型校准能力

表 3：Kaggle Acquire Valued Shoppers Challenge 数据集上的十分位级别平均绝对百分比误差（MAPE）（数值越低越好）。

表 3 报告了所有四个模型的十分位级别 MAPE。ZILN 损失显著降低了十分位级别的 MAPE，线性模型降低了 60.0%，DNN 降低了 68.9%。使用 ZILN 损失，DNN 进一步降低了线性模型的十分位级别 MAPE（降低 5.3%）。

回头客预测

表 4：Kaggle Acquire Valued Shoppers Challenge 数据集上回头客预测的精确度-召回曲线下面积（AUC_PR）（数值越高越好）。

我们还在表 4 中报告了回头客预测二分类任务的精确度-召回曲线下面积（AUC_PR）。ZILN 的性能与标准二元交叉熵（BCE）损失相当。

5.2 KDD CUP 1998

第二届国际知识发现和数据挖掘工具竞赛（即 KDD Cup 1998）提供了由美国退伍军人瘫痪协会（PVA）收集的数据集，这是一个为脊髓损伤或疾病的美国退伍军人提供项目和服务的非营利组织。该组织通过直接邮寄活动筹集资金，并对停止捐赠至少 12 个月的捐赠者感兴趣。提供的数据集包含大约 200K 名在 1997 年邮寄活动中收到邮件且在前 12 个月内未捐赠的捐赠者。

我们解决了竞赛中的相同任务，即预测 1997 年邮寄活动的捐赠金额。

图 6：1997 年邮寄活动中响应的 5% 流失捐赠者的捐赠值分布（对数刻度）。

标签包括零和正捐赠值的混合。大约 95% 的捐赠者未响应 1997 年的邮寄活动，因此被分配了零标签值。对于剩余的 5% 的捐赠者，正捐赠值的分布在图 6 中以对数刻度显示。为了简化实验，我们将 DNN（四层）固定为模型架构，并将 ZILN 损失与 MSE 损失进行比较。我们使用了一部分可用特征，如捐赠者人口统计、促销和捐赠历史。由于在相同超参数下多次运行训练模型的变化，我们每个模型训练 50 次，并报告评估指标的平均值。

图 7：KDD Cup 1998 数据集上的预测性能。箱线图比较了 50 次重复运行中 MSE 和 ZILN 损失的斯皮尔曼相关性、归一化基尼系数、十分位级别 MAPE 和总利润的分布。最右侧面板中的水平线表示竞赛获胜者报告的总利润。

与 MSE 损失相比，ZILN 损失导致更高的斯皮尔曼等级相关性（0.027 对 0.020）。在模型区分能力方面，ZILN 损失实现了更高的归一化基尼系数（0.190 对 0.184）。在模型校准方面，ZILN 损失也优于 MSE，具有更小的十分位级别 MAPE（0.176 对 0.210）。原始目标是最大化 1997 年邮寄活动的总利润。

每封促销邮件的成本为 0.68 。总利润计算为捐赠总额减去预期收入高于 0.68 的捐赠者的成本。竞赛的获胜者报告的总利润为 14,712.24。我们使用 ZILN 损失的最佳 DNN 模型（在 50 次运行中）实现了 15,498.24 的总利润，代表了进一步的 5% 相对增加。

6 结论

我们回顾了用户生命周期价值（LTV）预测如何为各种营销决策提供信息。我们使用深度神经网络（DNN）基于用户属性和购买元数据来预测新用户的 LTV。我们提出的混合 ZILN 损失函数专为 LTV 标签数据设计，该数据是零值和重尾值的混合。我们提倡使用归一化基尼系数来量化模型的区分能力，并推广使用十分位图来评估模型的校准能力。我们在两个公共数据集上展示了我们提出方法的竞争性能。