论文分享 --＞数据挖掘_基于机器学习的游戏付费用户特征挖掘-CSDN博客

本文链接：https://blog.csdn.net/Mr_tyting/article/details/113816766

该论文分析了QQ飞车和DNF两款在线游戏的用户数据，研究用户如何从免费玩家转化为付费玩家。研究发现，用户的社会关系对其付费行为有显著影响，特别是强关系的付费邻居数量、结构洞角色和付费邻居的平均消费金额。提出了一种局部一致性因子机（LCFM）模型，该模型结合用户属性、社会效应和游戏行为特征，提高了预测新付费用户的准确性。在线实验表明，LCFM模型相比于其他方法提高了转换率，验证了其在线效用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本次要分享的论文是 cikm2014论文 Modeling Paying Behavior in Game Social Networks，本论文由腾讯公司和清华大学联合出品，深入探讨了如何挖掘游戏数据中的高潜付费玩家，详细分析了免费玩家向付费玩家转化规律。虽然本论文所提模型比较简单，但是其中的数据分析和实验分析过程，对业务而言，具有一定的参考价值。

论文动机

在线游戏是互联网上最大的产业之一，每年产生数百亿美元的收入。网络游戏的一个核心问题是：如何将免费用户并将其转化为付费用户，这对于几乎所有网络游戏的可持续发展都具有重要意义。尽管已经进行了大量的研究，但仍有一些基本上没有解决的挑战：触发用户付费的根本因素是什么？在游戏社交网络中，用户的付费行为是如何相互影响的？如何设计一个预测模型来识别那些可能付费的潜在用户？
传统的研究在于分析游戏动机与年龄、世代、使用模式等个人属性特征的关系，而近些的调查发现，社会属性特征越来越影响玩家的游戏动机，例如游戏Zynga 1年收入的80%来自Facebook用户，因此研究社交活动如何影响玩家付费变得十分重要了。
本论文以两款大型网络游戏为基础，研究了用户在游戏中如何成为新的付费用户。特别的，研究了在游戏社交网络中，用户的付费行为是如何相互影响的。我们从强弱关系、社会结构多样性和社会影响等多个社会学视角来研究这一问题。基于发现的模式，论文提出了一个学习框架来预测潜在的付费用户。该框架可以使用与用户相关联的特征来学习模型，然后使用用户之间的社会关系来改进所学习的模型。
本论文研究的目的就是了解触发免费用户付费的根本因素是什么？ 为了达到这一目标，面临几个挑战
- 稀疏性：相对于推荐系统或者搜索排序场景，游戏场景中的付费行为和非付费行为是非常不均衡的，例如游戏 Zynga 每个月有超过200亿的活跃玩家，但是仅仅有3%的玩家在游戏中有付费行为。
- 社会效应（Social effects）：社交活动已经成为网络游戏设计中最重要的因素之一，用户的朋友和社会结构如何影响用户的付费行为是未知和必须深入研究的部分。
- 预测模型（Predictive models）：为了有效地识别潜在付费用户，开发能够结合用户属性和社会效应的方法和模型是非常重要的。

数据分析

数据集

本论文是基于 QQ飞车， DNF 两款流行的在线游戏数据进行分析和实验的。

QQ飞车：是一款赛车游戏，用户可以参加赛车比赛，与其他用户进行比赛。这款游戏是中国最大的在线赛车游戏（2014年），2013年吸引了超过2亿用户。游戏中的用户可以以个人身份与其他用户竞争，也可以组成一个组一起竞争。游戏提供商通过在游戏商店中销售虚拟物品来赚钱，包括不同类型的车辆和配件。
QQSpeed数据集包含2013年6月20日至2013年8月20日期间游戏中抽样用户的各种用户活动，总共有来自760万用户的447亿个活动日志。
NDF：一款格斗类游戏，2013年，这款游戏吸引了全球超过4亿用户。游戏中的用户可以单独与敌人作战，也可以组成一个团队一起作战。
DNF数据集包含了2013年4月1日至2013年6月30日期间游戏抽样用户的各种用户活动。用户活动包括用户金钱的减法、用户等级的改变、游戏中的杀戮等，总计有来自34.7万用户的57.1亿条活动日志。

一个简单的结论：用户之间确实存在对支付行为的强烈影响。一个拥有5个强关系付费邻居的用户成为新付费用户的可能性是普通用户的5倍。同时，当用户意识到他的朋友已经在游戏中支付了很多钱时，他的支付意愿会很快降低了下来。

论文中，根据用户的付费日志，将用户分为三类：

免费用户
付费用户
新付费用户

以QQSpeed为例。将2013年6月20日之前有付费行为的用户归类为付费用户。对于2013年6月20日之前没有支付行为，但在2013年6月20日至2013年8月20日期间支付的用户，我们称其为新付费用户。而其余没有任何付费行为的用户则被视为免费用户。

用户间相互关系定义：

co-player：在QQSpeed中，如果两个用户加入同一个组来共同竞争，我们认为这两个用户是连通的。我们称这种关系为合作（co-player）关系。此外，我们还考虑到这种关系的强弱。如果两个用户在一起玩了5次以上，我们称这种关系为强关系，否则称为弱关系。
co-guild：两个用户在同一个公会系统。

基于以上方法，我们在DNF中构建了一个拥有263万用户、730万个co-player关系和5200万个co-guild关系的游戏网络，在QQSpeed中构建了一个拥有354万用户、1.34亿个co-playe关系和6670万个co-guild关系的游戏网络。

注意：为了简单起见，下面的关于 relationship的分析，只考虑co-player 关系

特征设计和分析

首先在设计特征前，明确下特征设计的目的：

人口统计（Demographics）：用户的人口统计属性（性别、年龄、等级等）如何影响他们的付费行为？
社会效应（Social effects）：存在关联关系的用户是否倾向于有相似的付费行为？

一些基础特征

性别（Gender)：女性 or 男性
等级（Level）：代表用户总体技能和经验的数字。提高等级需要完成任务、参与比赛。通过获得一个等级，一个用户的能力将得到提高，同时他可以在更高的水平与用户玩。在QQSpeed中，用户的级别从1到200不等。我们使用基于密度的离散化方法将用户分为三组：低层、中层和高层。
登录天数（Login)：表示两个月内用户登录游戏的天数。我们将游戏用户分为两类，分别代表登录频率较低和较高的用户。
关系（Relation）：表示用户是否与其他用户至少有一种co-player关系。
Guild：表示用户是否与其他用户至少有一种co-guild关系。
中心性（Centrality）：在网络分析中，节点的中心性度量其在图中的相对重要性。使用PageRank算法计算所有用户的中心性得分，并选择PageRank得分最高的前10%用户2作为中心性用户，其余用户作为普通用户。

PageRank最开始应用在网页搜索排序上，本质上是一种以网页之间的超链接个数和质量作为主要因素粗略地分析网页的重要性的算法。其基本假设是：更重要的页面往往更多地被其他页面引用（或称其他页面中会更多地加入通向该页面的超链接）。其将从A页面到B页面的链接解释为“A页面给B页面投票”，并根据投票来源（甚至来源的来源，即链接到A页面的页面）和投票对象的等级来决定被投票页面的等级。简单的说，一个高等级的页面可以提升其他低等级的页面。
SH（structural hole 结构洞）：在社会网络中，结构洞代表连接不同社区的用户，论文中用HIS算法估计用户节点的结构洞得分。

其中 $C=\{C_1, C_2,....,C_l\}$ 表示有 $l$ 个社区， $I(v,C_i) \in [0, 1]$ 表示节点 $v$ 在社区 $C_i$ 的重要性。 $\in [0,1]$ 表示 S中v的结构洞得分，即v跨越S中所有群落的结构洞的可能性。其中 $l$ 个社区是由 Clauset-Newman-Moore 算法识别。

上图中我们可以得知 AB，AC， AD之间都有连边，即它们存在关系，而当我们只关注BC之间的关系时，我们发现它们之间没有直接的连边。这时候的A就充当了一个B与C之间的结构洞，同理，A也是B与D，C与D之间的结构洞。所以，我们可以说与节点A关联的结构洞的个数是3，当然节点A在这个小网络中间就是最重要的节点。

下面分析下，每个基础特征与转化率（免费用户转化为付费用户）的关系，如下图：

在这里插入图片描述
上图中，横坐标为 Relative Risk，其计算公式如下：

$P$ ：表示免费用户转为付费用户的转化率，显然RR越大，则该特征 $i$ 对转化率越有帮助。
纵坐标表示：单个特征

由此可以得到一些基础特征结论：

男性用户成为新付费用户的概率是女性用户的1.2倍，这表明男性用户比女性用户更容易付费。
中层等级用户比其他人更容易成为新的付费用户。这听起来很合理，因为低级别用户可能不熟悉游戏，而高级别用户可能已经在游戏中玩得很好，因此没有动机在游戏中付费。
对于登录频率，登录顶部组成为新付款人的概率是登录底部组的五倍。
在relation 和 guild属性上，与他人有关系的用户成为新付费用户的概率是与他人没有关系的用户的3倍，加入公会的用户成为新付费用户的概率几乎是未加入公会的用户的3倍。
对于中心性和结构洞，中心性用户成为新付费用户的概率比其他用户高300%，而结构洞跨越用户成为新付费用户的概率比其他用户高250%。中心性和结构洞属性都与用户的付费行为呈正相关。

社会影响特征（Social Effects）

Social Influence（周围付费邻居个数与转化率关系）

这里面分析的是一个用户的游戏行为是否与其周围朋友的行为越来越相似，其付费行为是否会被周围其付费用户所影响？
在这里插入图片描述
上图显示了一个免费用户成为新付费用户的概率，取决于他在游戏网络中拥有的付费邻居的数量。简单地说，当一个免费用户与5个付费用户玩游戏时，他会付费的可能性会增加到不与任何付费用户玩游戏的可能性的3倍。可以了解到的另一个趋势是，当用户有更多付费邻居时，转换可能性（从免费用户到付费用户）继续增加。

上面结论是准确的吗？当用户与周围付费邻居关联强弱时呢？

Strong/Weak Tie（与周围付费邻居关系强弱与转化率关系）

论文也进一步研究了强关系和弱关系对用户付费行为是否有不同的影响，如果两个用户一起玩超过5次，我们称这种关系为强关系，否则称为弱关系。

在这里插入图片描述
从上图可以看出：强关系确实对支付行为有较强的影响，而弱关系的影响相对较弱。

Status（周围付费邻居付费金额与转化率关系）

论文中进一步分析了免费用户周围的付费邻居的付费金额与用户转变为新付费用户概率的关系，如下图所示：
在这里插入图片描述
当支付邻居消费金额平均值为200时，概率比零高出300%。然而，随着付费邻居消费金额的平均数增加，成为新付费者的概率下降。这可能是因为这类用户可以从他们的“有钱朋友”那里得到比其他用户更多的礼物道具。

结构多样性（Structural Diversity）

论文中还研究分析用户的社交圈结构如何影响他的付费行为，是否不同的社交圈结构会对用户付费行为有着不同的影响。
在这里插入图片描述
从上图可以看出：

转换概率（从免费用户到新付费用户）通常随着断开连接的组件的数量增加而增加。

当一个用户有多个（例如4个）付费邻居时，如果所有邻居都不认识，那么该用户受影响成为新付款人的概率几乎是四个邻居相互认识（的两倍。这在某种程度上是违反直觉的，但在某种程度上是可以解释的.
当用户是付费邻居弱连通的例外情况，比如A与B、B与C、C与D（第三个）是弱连通的，对中心用户付费行为的影响很大，但方差也很大。

特征与模型

特征

User attribute features

性别（Gender)：类别特征
等级（Level）：类别特征
登录时长（Login time）：数值特征
关系（Relation）：类别特征，用户是否与其他用户至少有一种co-player关系。
Guild：类别特征，表示用户是否与其他用户至少有一种co-guild关系。
中心性（Centrality）：类别特征，是否为中心性节点
SH：是否是结构洞节点。

Social effect features

周围邻居付费用户个数
周围邻居付费用户强关系的个数
周围邻居付费用户弱关系的个数
周围邻居付费用户平均付费金额
两个整数值特征分别表示付费邻居的个数和付费邻居形成的连通分量的个数。

In-game behavior features

这类特征是从用户的游戏行为日志中提取出来的，包括一系列统计摘要特征，如购买物品的数量和虚拟货币消费的总和。还提取了一些特定领域的特征，如用户缺失项的最大值和用户参与特定比赛的次数。

模型

为了精确地表示模型，论文中定于了一些必要的符号。设
$G = （ V ， E ， W ， X ）$
是一个soical network，其中 $V$ 表示所有用户的集合， $E$ 表示所有关系的集合， $e_{i,j} \in E$ 表示节点 $v_i$ 和节点 $v_j$ 之间的关系。每个关系 $e_{i,j} \in E$ 都与一个权重 $W_{i,j} \in W$ 相关联，它表示关系的强度。 $X$ 是所有用户的特征向量集。每个用户 $v_i$ 具有特征向量 $x_i \in X$ ； $y_i \in [0，1]$ 表示用户 $v_i$ 的付费潜力。

模型很简单，就是在FM模型的基础上进行了一些改进，并且针对时间复杂度过高，在训练上进行了一些优化。

Factorization Machines (FM) Model

简单回归下FM模型，对于每个样本特征 $x_i$ ，都可以通过如下公式计算预测：
在这里插入图片描述
其中 $W$ 的shape 为 $[d, 1]$ 的参数矩阵， $p$ 的shape为 $[d, k]$ 参数矩阵。

引入FM的目的：旨在解决稀疏数据下的特征组合问题。优势：高度稀疏的数据场景具有线性计算复杂度。
这里引入 FM模型对实际业务理论上是有契合的，例如可能存在男性 & 年纪大付费能力大于女性 & 年纪小，这种特征交叉对发现潜在规律是有帮助的。

论文中采用 square loss 作为损失函数，并且利用L2正则化防止过拟合，因此损失函数为：

在这里插入图片描述

这里面的参数 $\theta = \{w_0,w_1,...,w_d, p_{1,1}, p_{1,2},...p_{1,k},,,.,p_{d,1},...,p_{d,k}\}$

Local Consistent FM (LCFM) Model

算法介绍

由于标准的FM模型不能利用未标记用户之间的网络信息，本文提出了一种局部一致性FM（LCFM）模型，该模型通过局部一致性来融合网络信息。其基本思想是假设网络中的邻居节点应该是相似的，并且这种趋势取决于它们之间关系的强度。形式上，基于强度权重 $W_{i,j}$ ，我们定义了一致性程度：

在这里插入图片描述
上式中的 $NB(v_i)$ 表示与节点 $v_i$ 有relationship(这里是指co_player) 的邻居用户。我们认为关系越强（ $c_{i,j}$ 越大）的两个用户付费行为上越相似。因此损失函数如下：

其中目标函数中右侧第三项为local consistency term（局部一致性约束），即具有越强关系的用户应具有相似的付费行为； $μ > 0$ 为可调参数，以平衡目标函数中局部一致性因子的影响。

模型学习

显然上面改进的损失函数时间复杂度达到了 $O (∣ E ∣ k d)$ ，时间复杂度过高，几乎不具备落地可行性。因此论文中将训练过程分为两步：

首先在 training data训练FM模型，该模型的损失函数为上面的 Eq(4)，其中并没有 局部一致性约束，该过程循环 $T 1$ 个 epoch，由此得到优化后的参数 $\theta^*$ 。这一步是 learning过程。

因为training data必然存在类别不平衡问题，论文中采用下采样得到样本进行第一步训练
在第一步得到的FM模型，对test data 每个节点 $v_i$ 进行预测得到 $\hat{y_i}$ 作为该样本的初始付费概率，为了优化 local consistency term, 论文中采用传播策略来更新 $v_i$ 的付费概率 $\hat{y_i}$ 。这一步是 inference 过程。

上式中 $\gamma \in [0,1]$ ，其中 $NB(v_i)$ 表示节点 $v_i$ 的付费邻居。

详细的训练过程如下：

在这里插入图片描述
注意上面红色方框标注的部分，第二步是在第一步的基础上进行。

时间复杂度分析：

标准FM时间复杂度： $O (k d)$
第一步（learning）时间复杂度： $O(|V|T_1kd)$
第二步（inference）时间复杂度： $O(|E|T_2)$
第一步第二步合在一起时间复杂度： $O(|V|T_1kd+|E|T_2)$

实验分析

实验设置

依然采用 QQ飞车和DNF两款流行在线游戏数据，实验任务是根据用户的网络信息和活动日志，预测一个免费用户是否会成为新的付费用户。我们按时间将数据集分为训练集和测试集。

数据集	训练集	测试集
QQ飞车	20130620-20130719	20130720-20130820
DNF	20130401-20130530	20130601-20130630

对比算法：

Factorization Machines (FM)
Logistic Regression (LRC)
SVM
Random Forest (RF)
Gradient Boosted Decision Tree (GBDT)

评测指标：

precision
recall
AUC
F1 score

离线表现

在这里插入图片描述
上表列出了离线数据集中不同方法的结果。可以看到，所提出的 $L C F M$ 模型明显优于baseline方法（F1为+3-11%，AUC为+1-3%），LCFM模型的优点在于以下几个方面。

LCFM捕捉变量之间的相互作用，因此它比LRC和SVM等只对单个变量的影响建模的模型估计得更准确。
LCFM通过隐向量间的点积来模拟变量间的相互作用，平滑了强变量的影响，避免了过拟合。
LCFM利用网络信息的局部一致性假设，更好地拟合数据。

此外，可以看到，DNF数据集的预测结果比QQSpeed数据集的预测结果要好，这可能是由于QQSpeed数据集中新的付费用户更稀疏的原因。

特征重要性分析：

上面讲到过将特征分为：user attribute fea- tures (A), social effect features (S) and in-game behavior features（B)
论文中，分别只对模型输入 A、S、B类特征，对比看对实验结果（F1 score 和 AUC）的影响。

在这里插入图片描述
从上图可以看出：相对于LCFM，忽略每一类特性，性能上都有明显下降。这表明我们的方法结合了不同类别的特征，并且每个类别的特征都有助于提高性能。

论文中也深入研究了 social effect features 对模型性能的影响，如下表：
在这里插入图片描述

线上表现

将上述训练好的LCFM模型部署在QQ飞车和DNF游戏线上，并定期的利用最新的数据对模型进行更新。为了得到模型的有效性检测，线上采用A/B test，一部分样本采用之前线上策略，另外一部分样本采用LCFM模型预测。采用 Lift_Ratio 来评测结果：

在这里插入图片描述
上式中CR是LCFM的转换率， $CR_{prior}$ 是之前线上策略的转换率。

那么线上是如何进行推荐呢？

对于每个在线测试，使用不同的方法来选择一组测试用户和一组控制用户。一个用户可能属于多个组，
例如测试组和控制组。然后，我们向所有选定的用户发送邀请消息。即使用户属于多个组，也只会收到一条消息。
消息的内容是邀请用户参加一个促销活动，用户只需支付一定金额的钱，然后用户就可以参加抽奖获得QQSpeed中的道具。

在这里插入图片描述

论文中，线上做了两组实验，分别是online Test1, online Test2，实验线上结果如下：

在这里插入图片描述

Online Test 1：

利用LCFM模型计算候选用户集中每个用户的付费潜力得分。我们选择top60万名用户组成 test group，使用之前线上策略选择20万名用户组成control group，实验结果如上图 Online Test 1 所示。可以看出：与之前线上策略相比，LCFM转换率相对提高了196%，这验证了LCFM方法在在线场景中的有效性。

Online Test 2：

test group ：LCFM模型所推荐的高薪潜在用户。
control group：去掉了social effect features 后训练得到的模型型预测的高分用户。
prior group：之前线上策略选择的用户。
显然LCFM模型表现最好。