游戏用户生命周期价值预测模型综述

1. 用户生命周期价值预测

用户生命周期价值预测(Customer Lifetime Value Prediction,又叫Predicted Lifetime Value,简称pLTV)是一种用于预测一个用户在其整个与游戏公司关系期间所带来的总利润的统计方法。这个概念最初产生于电子商务和用户关系管理(CRM)领域,对游戏行业也非常重要,能帮助游戏评估用户的价值,识别可能在未来一段时间内产生重要收入的高价值用户,从而更有效地分配投放预算,培养和留住高价值用户,以及减少潜在的损失。

用户生命周期价值通常包括以下几个方面:

  • 历史价值:用户过去已经为游戏带来的收益。

  • 潜在价值:预计用户未来可能带来的收益。

预测模型会考虑多种因素,包括但不限于用户的付费历史、付费频率、付费的产品类型、用户获取成本、用户忠诚度等。通过这些数据,游戏公司可以量化每个用户的价值,并据此制定策略,比如提高用户留存率、增加用户付费频率、提升平均付费金额等。

在进行用户生命周期价值预测时,游戏公司可能会使用不同的统计和机器学习方法,从简单的启发式到复杂的机器学习和深度学习算法,来提高预测的准确性。用户生命周期价值预测并非一个简单的任务,因为它需要处理大量数据,并且要考虑到多种复杂的因素。此外,预测的准确性会受到数据质量和模型选择的影响。

2. 传统模型

2.1 RFM模型

RFM(最近一次消费、消费频率和消费金额)模型作为一种经典的用户细分和价值评估工具,自从20世纪80年代被提出以来,一直被广泛应用于零售和服务业。尽管随着时间的推移和数据分析技术的发展,出现了更多先进的模型和算法,但RFM模型的核心理念依然具有其价值和应用场景。

  • 最近一次消费(Recency, R)用于追踪每位用户自最近一次付费以来的时间。时间越短,表明用户与的联系越紧密,可能对游戏的忠诚度和满意度较高。

  • 消费频率(Frequency, F)用于衡量用户在设定期间内进行的付费次数。频率越高,表明用户越活跃,与游戏的关系越牢固。

  • 消费金额(Monetary, M)用于衡量用户在设定期间内花费的总金额。金额越大,表明用户的经济贡献越大,对游戏的价值越高。

使用RFM模型进行用户付费金额预测通常包括以下步骤:

  • 数据收集:收集用户的付费历史数据,包括付费日期、付费次数和付费金额。

  • 计算RFM指标:基于付费历史数据,计算每个用户的R、F、M值。

  • 用户分群:根据RFM指标的高低,将用户分为不同的群体。通常使用分位数(如30%、70%)来划分R、F、M的高低。

  • 行为预测:根据分群结果,预测不同群体用户的未来行为,如付费金额。例如,R值低、F值高、M值高的用户群体可能预示着高付费潜力。

  • 策略制定:基于预测结果,为企业制定相应的营销策略,如对高价值用户进行个性化推广或对即将流失的用户进行挽留。

直到今天,RFM模型也没有完全过时,能作为更复杂分析的起点,为机器学习模型提供特征工程的方向,也能和其他分析技术(如聚类分析、决策树、神经网络等)结合使用,以提高预测的准确性和细分的细致度。

2.2 BG/NBD模型

BG/NBD模型(结合Gamma-Gamma模型),也称为Beta-Geometric/Negative Binomial Distribution模型。它由Peter Fader、Bruce Hardie和Ka Lok Lee创建,发表于2005年期刊《营销科学》文章《Counting Your Customers the Easy Way: An Alternative to the Pareto/NBD Model》。

BG/NBD模型是一个综合的概率模型,描述了消费者行为的两个方面,付费行为和流失行为。这是通过使用以下概率分布的组合来完成的:

  • 使用泊松分布来模拟付费,使用指数分布来模拟付费之间的时间。

  • 因为不同的消费者有不同的付费行为,BG/NBD模型使用Gamma分布来模拟人群付费行为的变化。请注意,泊松/Gamma分布的组合被称为负二项分布Negative Binomial Distribution(NBD),这就是模型名称的来源。

  • 在每次付费后,用户会决定是继续成为用户还是流失。这种行为可以使用移位几何分布来建模。

  • Beta分布用于描述人群之间流失概率的变化。

为了计算用户生命周期价值,同时需要使用Gamma-Gamma模型来预测预期的付费价值。给定用户付费的价值遵循Gamma分布,用户之间的异质性也类似地遵循Gamma分布。在这两种情况下使用Gamma分布,是模型被称为Gamma-Gamma的原因。

BG/NBD模型和Gamma-Gamma模型的结合,不仅可以预测每个用户的生命周期价值,还可以提供以下问题的准确答案:

  • 哪些用户仍然是用户,以及他们中的哪些人将在下一个时期再次下单。

  • 每个用户的付费数量以及每个用户付费的平均价值。

与RFM模型相比,BG/NBD模型能够区分用户的付费行为和流失行为,这对于理解用户生命周期至关重要。BG/NBD模型可以为每个用户生成个性化的付费概率和流失概率,从而进行更有针对性的运营活动。

3. 机器学习模型

3.1 两阶段随机森林模型

2016年来自Ali Vanderveld等人的论文《An Engagement-Based Customer Lifetime Value System for E-commerce》第一次提出用两阶段的随机森林模型预测用户生命周期价值。

随机森林是机器学习中的一种强大的决策树学习方法,在训练阶段通过创建多个决策树来工作。每棵树都是使用数据集的随机子集构建的,在每个分割中测量特征的随机子集。这种随机性在各个树之间引入了变异性,降低了过拟合的风险,提高了整体预测性能。在预测中,算法通过投票(用于分类任务)或平均(用于回归任务)来聚合所有树的结果。这种由多棵树支持的协作决策过程,提供了稳定和精确结果的例子。随机森林广泛用于分类和回归功能,它们以其处理复杂数据、减少过拟合以及在不同环境中提供可靠预测的能力而闻名。

该模型有两个阶段,每个阶段都使用随机森林模型,

  • 第一阶段是随机森林二分类模型,预测目标用户是否会在时间窗口内付费。

  • 第二阶段是随机森林回归模型,对第一阶段预测付费用户,预测时间窗口内总的付费金额。

选择两阶段模型的原因是数据集高度不平衡,例如,大R用户付费可能性远远大于不付费的用户,而不付费用户的数量又远远大于付费用户。为了解决这些问题,对不付费用户进行欠采样,即减少不付费用户样本的数量,以得到付费用户和不付费用户50-50的训练集。同时,通过调整二分类阈值,可以最小化付费用户人数和付费金额总数的偏差(minimize the bias in the number of purchasers and their overall value)。最后,在参数优化阶段,较低的mtry(在每次分裂时随机采样作为候选的特征数量)和较高的ntree(生成的树的数量)表现最佳。

4. 深度学习模型

4.1 ZLIN

使用深度神经网络模型预测用户生命周期价值的论文很多,最有代表性的是2019年来自Xiaojing Wang等人的《A Deep Probabilistic Model for Customer Lifetime Value Prediction》,这也是作者从事用户生命周期价值预测接触的第一篇相关论文。该论文使用深度神经网络模型,因为深度神经网络在性能上有竞争力,并且能够捕捉预测特征与用户生命周期价值之间复杂和非线性的关系。

深度神经网络(Deep Neural Networks,DNN),通常具有复杂的隐藏层结构和各种不同的层,如卷积层(Convolutional Layer)、最大池化层(Max-Pooling Layer)、密集层(Dense Layer)和其他独特的层。这些额外的层帮助模型更好地理解问题,并为复杂项目提供最优解决方案。深度神经网络比简单神经网络有更多的层(更深),每层都为模型增加了复杂性,同时使模型能够简洁地处理输入以输出理想解决方案。

准确预测单个用户的生命周期价值是一个困难的任务,面临两个主要的数据挑战。首先,许多用户只付费一次,在预测周期内不再付费,导致预测目标值中出现大量的零值。其次,对于在预测周期内再次付费的用户,生命周期价值波动非常大,生命周期价值分布高度不均匀。一些大R用户的付费金额会占所有用户总付费金额的很大一部分,这也符合二八定律。

尽管MSE(Mean Squared Error)损失函数在回归建模中占据主导地位,但对于生命周期价值预测中的数据挑战来说,它并不是理想的选择。MSE忽略了生命周期价值是零和连续值的混合,并使模型学习两个分布的平均值。平方项也对异常值非常敏感。大多数大规模训练算法使用随机梯度下降,由计算小批量训练数据导致梯度嘈杂且偶尔爆炸(noisy and occasionally exploding),很容易造成数值不稳定或收敛问题。该论文提出了一种基于零膨胀对数正态分布the zero-inflated lognormal (ZILN) distribution的混合损失函数,用来处理用户生命周期价值中常见的零值和极大值。

结合ZILN损失函数的DNN架构与传统回归模型相比具有几个优点。首先,它能够同时预测流失概率和生命周期价值。它减少了构建两阶段模型的工程复杂性:两阶段模型通常由一个二分类模型预测是否付费,再由一个回归模型预测第一阶段预测付费用户的生命周期价值。其次,它提供了生命周期价值的完整概率分布,从而允许对点预测的不确定性进行量化。

最后,该论文还提出了两种新的评估指标,归一化的基尼系数和十分位的MAPE。从两个方面评估用户生命周期价值预测模型的预测性能:区分能力和校准能力。模型区分能力表明模型区分高价值客户与其他客户的能力,使用归一化的基尼系数来评估。模型校准能力指的是实际生命周期价值和预测生命周期价值之间的一致性,使用十分位的MAPE来评估。

5. Transformer模型

5.1 MDLUR

Transformer模型代表了自然语言处理和人工智能领域的一项突破性进展,它在自然语言处理(NLP)领域取得了显著的成就,并随着GPT等大模型的火爆而出圈,被越来越多的人所了解。Transformer模型最初由Google在2017年的论文《Attention Is All You Need》中提出。它很快取代了循环神经网络(RNN)和卷积神经网络(CNN),成为NLP任务的主流模型。Transformer模型基于自注意力机制(Attention Mechanisms),完全摒弃了循环和卷积的结构,以其独特的自注意力机制和并行计算能力,允许模型同时处理序列中的所有元素,而不受序列长度的限制,解决了传统模型在处理长序列时的长距离依赖问题和计算效率问题,从而在各种NLP任务中取得了优异的性能。Transformer模型的成功也促进了各种Transformer模型变体的开发,每种变体都针对特定的应用场景进行了定制。

目前业界对于用户生命周期价值预测最新并且最成功的模型是2023年8月Junwoo Yun等人发表的《Multi Datasource LTV User Representation (MDLUR)》。根据论文的表述,该模型正是采用了最新的Transformer模型架构,并达到了行业内SOTA的水平。SOTA,全称State-Of-The-Art,用于描述机器学习中取得某个任务上当前最优效果的模型。

MDLUR模型的新颖之处在于其能够利用多种数据模态和频谱(multiple data modalities and spectrums),并针对每个数据源量身定制单独和独特的模型架构,主要数据源包括用户信息、画像和行为序列等各种数据(用户画像数据是指时间序列的用户状态数据)。每个数据源的输出通过SAE(Skip-connected Autoencoder)进行聚合和压缩,从而得到一个丰富而强大的用户数据表示,它包含了各个维度的信息。这种方法使MDLUR模型在预测任务中表现出色,特别是用户生命周期价值预测,并提供了对玩家行为更深入的理解。MDLUR模型架构见下图。

此外,MDLUR模型通过其通用用户数据embedding,比传统模型提供了显著的优势。它使得各种基于用户数据的预测任务成为可能,并能发掘出因为数据表现不足导致被传统模型经常忽视的用户的潜力。通过全面使用用户信息、画像和行为序列等各种数据,MDLUR模型帮助提高了公司的流水并增强了整体玩家的体验。

为了全面评估模型的效率,采用了回归和分类评估指标。回归指标包括RMSE(Root Mean Squared Error)和R2(R-squared),分类指标包括WAP(加权平均精度)、WAR(加权平均召回率)和WAF1(加权平均F1 Score)。其中,分类指标是将用户生命周期价值转换为五个组,分组的界限为[-1, 0.5, 10, 100, 1000, 无穷大],计算五个组的加权平均指标,但没有透露每个组的加权系数。从上图可以看到,在使用新用户注册7天数据预测用户14天生命周期价值的场景下,使用MSLE作为损失函数的MDLUR模型在所有指标上遥遥领先。

6. 总结

从预测模型综述可以清晰看到游戏用户生命周期价值预测的模型演化历程,从非机器学习的传统模型,到机器学习模型和深度学习模型,再到最新最热门的Transformer模型,模型能处理的数据种类越来越多,能处理的数据量也越来越大,有很明显的由小到大,向大模型转变的趋势。最新的MDLUR模型能处理用户信息数据、用户行为序列数据和用户时间序列数据等各种数据,进而得到业内最好SOTA的技术指标,并能支持游戏行业中常见的用户生命周期价值预测和用户留存流失预测等各种预测任务。更进一步,以MDLUR模型为基础研发的,能处理游戏内各种类型用户数据和海量规模大数据的预测模型,将成为游戏行业内通用的用户数据大模型,并能拓展到任何拥有类似用户数据的其他行业。

  • 10
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值