【算法研究】游戏复杂网络的研究和应用

游戏知识图谱 · 游谱

早期对游戏的刻画主要依赖游戏描述文本,通过分词技术提取关键字进行简单描述。然而,游戏作为一种融合了美术、音乐等多种艺术形式的“第九艺术”,其复杂性和多样性远非简单关键字所能涵盖。为了更全面地刻画游戏,我们构建了名为“游谱”的游戏垂直领域知识图谱,这是一个多模态的知识图谱,汇聚了全球约 200 万款游戏实体,涵盖主机、PC 和手游三大类游戏。游谱融合了文本、图像、音效等多种信息,并通过 NLP、CV、音频等技术进行处理和分析,从而更全面地刻画游戏的各个方面,例如:

  • 文本信息:游戏名称、类型、描述、关键词等。

  • 图像信息:游戏截图、图标、角色形象等。

  • 音效信息:游戏音乐、音效等。

  • 交互信息:游戏玩法、机制、操作方式等。

通过多模态知识图谱的构建,我们能够更深入地理解游戏,并为游戏推荐、评估、运营等场景提供更精准的数据支持。

版本迭代

游谱的第一个版本游谱 1.0,也就是游戏知识库,于 2015 年启动构建。当时,为了支持新游戏的拉新工作,需要提取游戏的特征信息。然而,游戏作为一种超媒体,包含了文本、图像、音效以及与玩家的交互等多种难以量化的特性,对其进行全面刻画面临着巨大挑战。

由于当时的技术条件和人力资源有限,我们选择从文本信息切入,构建了第一个版本的图谱。该版本主要包含公司、游戏名称、游戏类型、游戏关键词、游戏描述等信息,并利用分词、词性标注、LDA [1] 等自然语言处理 (NLP) 技术对这些文本信息进行处理和分析。

通过 NLP 技术的深入挖掘,我们成功构建了约 80 维度的标签体系,覆盖了 10 万款游戏。这一标签体系有效地刻画了游戏的特征,并为游戏推荐、搜索、分类等场景提供了重要的数据支持。

随着游戏业务的不断发展,对游戏刻画的需求也日益增长。早期版本的游戏知识库,由于维度有限,难以满足日益复杂的需求,例如:

  • 游戏市场排名预测:需要更全面地了解游戏特征,才能准确预测其在市场上的表现。

  • 游戏用户规模预估:需要更深入地分析游戏特性,才能有效预测其潜在的用户规模。

  • 游戏玩法和手感刻画:需要更细致地描述游戏的玩法和手感,才能更好地满足用户需求。

为了解决这些问题,我们参考了 DPE(Design Patterns and Elements)和 MDA(Mechanics-Dynamics-Aesthetics)等常见的游戏设计框架,设计了 40 维度的游戏画像 Demo 版本,即游谱 2.0 版本。该版本的游戏画像不仅包含了游戏类型、题材、画面风格等基本信息,还涵盖了游戏玩法、难度、目标、奖励机制、交互方式、故事背景等多个维度,能够更全面地刻画游戏的特性。

游谱 2.0 版本的游戏画像标志着我们在游戏知识图谱构建和应用方面取得了重要进展,为后续版本的迭代和完善奠定了坚实基础。

1.0 版本游戏知识库涉及的维度少,不过可以覆盖大规模的游戏。2.0 版本游戏画像可以深度刻画游戏,不过构建成本高。通过总结了各自方法的优缺点,我们并取长补短,形成了多模态图谱的构建流程,即游谱 3.0 版本。主要包括持续迭代优化游戏画像的维度, 并扩大打分的范围。同时为了降低打分难度,我们会根据图谱在不同场景下的表现,对实体与属性进行调整, 使得更少的选项可以刻画更加丰富的内容。同时也在构建流程中引入更多的技术,让打分过程变得半自动化。这个过程会涉及知识图谱、NLP、CV、音频等诸多相关技术。譬如非结构化数据处理中,可以通过 LLM 提取实体间关系。或者通过游戏截图产生的隐空间向量表征来提取游戏画风等图片相关属性。类似的在校验补全上也寻找相应的配套方案,譬如游戏名的相似并不仅仅基于文本来做,还可以根据游戏的图标来做相似度计算。

游谱 3.0 版本的优势:

  • 多模态信息融合:不仅包含文本信息,还融合了图像、音效等多模态信息,能够更全面地刻画游戏的特性。

  • 维度更丰富,成本更低:通过优化维度和引入半自动化打分技术,在保证刻画能力的同时降低了构建成本。

  • 应用场景更广泛:可以应用于游戏推荐、搜索、分类、评估等多个场景,并取得了良好的效果。

游谱 3.0 版本的构建和应用,标志着我们在游戏知识图谱领域取得了重要进展。未来,我们将继续探索多模态信息融合、图神经网络等前沿技术,为游戏行业带来更多创新和价值。

通过多年积累, 目前游谱为游戏垂直领域规模最大的图谱。并且提供了一系列解决方案,包括新游戏发现、游戏及公司评估、发行运营等阶段的服务。这些服务可以帮助用户快速找到合适的游戏,预测游戏的市场表现和用户规模,以及提供精准的玩家画像和游戏推荐。譬如在新游戏拉新场景,推荐等场景效果提升在10%+。

OGB 比赛获奖

最后我们总结相关经验参加了 NeurIPS 2022 OGB-LSC Wiki90mV2 的比赛,获得了第三名的好成绩,具体可以参考 Solution for OGB-LSC Wiki90mV2 [2]。此外还获得了知识图谱学习竞赛 ogbl-wikikg2 第一名(见下图,详见[3])。

游戏社交网络 · 游缘

社交网络通常指的是人与人之间的联系和互动,例如熟人网络、陌生人网络等。然而,除了这些常见的社交网络,许多垂直领域也存在着独特的社交网络,游戏领域便是其中之一。在游戏中,玩家之间会建立起各种社交关系,例如好友、队友、公会成员等。这些社交关系会对玩家的游戏行为产生重要影响,例如更紧密的社交关系往往意味着玩家在游戏中更活跃、粘性更强。现实中的社交网络通常由许多小结构组成,例如社区、圈子等,其复杂度非常高。以大型游戏为例,其好友关系网络可能包含上亿个节点和几十亿条边,从中找出规律并进行有效分析,面临着巨大的挑战。为了更好地刻画和分析游戏社交网络,我们构建了名为“游缘”的游戏社交网络知识图谱。游缘在基础的关系链数据上进行抽象,形成了包含网络标签和个人标签的社交关系画像体系。

高影响力玩家识别

在游戏社交网络中,一些玩家由于其活跃度、影响力等因素,对其他玩家产生着重要的影响。识别并利用这些高影响力玩家,可以帮助游戏运营者有效地提升用户活跃度和留存率。我们基于 Topical Affinity Propagation (TAP) 算法[4] 识别游戏内的高影响力玩家。TAP 算法主要基于概率图网络,通过计算影响力在网络中的传播过程,识别出对其他玩家影响最大的玩家。

  • 考虑影响力传播:TAP 算法不仅考虑玩家自身的活跃度,还考虑其在网络中的影响力,能够更准确地识别高影响力玩家。

  • 无监督学习:TAP 算法无需人工标注数据,可以自动学习网络结构,识别高影响力玩家。

基于识别出来的高影响力玩家,我们在多款业务做了好友召回活动。具体是为高影响力的玩家提供潜在召回玩家的列表,由玩家自己选择应该召回谁。最终在多个业务上实验,并取得了不错的效果。

千亿图神经网络

随着游戏社交网络规模的增加,形成千亿的关系链和社区网络,涵盖了不同的社交关系。分析研究这种大规模游戏复杂网络,并维持它的稳定,成为了游戏生态中的重要一环。首先,需要高效的图计算算法支持。其次,在真实场景,我们能收集到的标签往往很少。如何将这一大部分无标签数据为我们所用,提升在推荐任务上的成功率,是我们重点探索的方向之一。

业界主流的针对大图计算的优化方法主要是采样。FastGCN [5] 在每一层以度数为权重采样固定数量节点,采出来的子图可能过于稀疏。而 ClusterGCN [6] 这样分而治之的方法,可以比较高效的实现高度并行。然而,大图分割难度大,Metis 图分割算法不能处理千亿规模的大图。切图必然会带来信息损失,影响图计算效果。GraphSAGE [7] 通过学习一个对邻居顶点进行聚合表示的函数来产生目标顶点的 embedding 向量。FastGCN 采样的是图中的顶点而不是邻居。通过定义样本的损失和样本梯度的蒙特卡洛近似计算积分,并可以进一步改变采样分布来减少近似方差。

为此,我们提出了 LPS-GNN 框架,分别对图分割和子图数据增强进行了优化。此外,我们的框架可以灵活的选择任意 GNN 算法。首先对于大规模 GCN 框架的第一部分图分割算法。目前主流的图分割算法有两大缺点,一是能处理的图大小仍有限制,二是很容易行程超级社区,而超级社区对于并行计算的负载均衡性能有非常大的影响。在现有图分割算法里,Metis 是表现较为稳定的经典算法。然而,Metis 可以处理的图大小有限。为此我们设计了基于 label Propagation 的 LP-Metis 图分割算法。它结合了社区发现和 Metis 的优点。我们首先用标签传播算法多伦迭代进行多层次图合并,在对最终的缩略图做Metis分割图后,递归得到原图分区。标签传播算法保留了原图的重要结构信息。但是针对其容易形成超级社区的缺陷,我们设计了 stable 机制,在标签传播时同时考虑邻居的情况和子图的大小,以此来保障并行算法的负载均衡。最终我们的 lpmetis 图分割算法,可以在 9 小时跑完千亿大的图,并且与其他图分割算法对比,它切图更均匀,保留的边更多,速度更快,且切出来的图应用于下游 GCN 任务准确度更高。

切图会带来信息的损失。为此我们设计了一系列子图数据增强的方法,来提升子图质量,已减小图切割带来的信息损失。我们首先借助大盘关系数据的力量,使用无监督 GNN 算法学习基于玩家大盘关系网络来得到玩家整体的游戏社交偏好作为单游戏单场景的信息补充。在识别作弊玩家这样的标签较少的场景下,可以有效的提升预测准确度。其次,考虑到每个子图只保留了局部信息,我们将子图看成节点,子图之间形成有权重的边,构成了包含了全局信息的缩略图。对该缩略图进行表征学习可以得到整个大图的全局信息。除了特征增强,我们还尝试了对子图结构进行优化。我们尝试了不同的策略,比如随机删掉一些边,基于表征相似度来对图的边进行调整。但从结果显示,最优的方法是基于意见领袖对图的影响更大,我们去除了子图中 pagerank 最低的 5% 的节点对子图结构进行去噪。这一步是带来了 4.6% 的准确度的提升。此外,我们还发现对于超级大图,只采样一部分子图进行多伦迭代训练由于对全图进行训练。不仅时间显著下降,准确度也显著提升。

 

最终,应用到实际场景时,基于不同的目标和数据,我们可以灵活选择合适的 GNN 算法。该框架在腾讯游戏多个场景落地,在线上 AB 实验中均获得显著效果提升。

好友推荐

在游戏内有很多排序的场景,需要给玩家按照他们的喜好来推荐他们可能感兴趣的好友、道具、游戏、玩法模式等。其中一个场景是好友召回活动,当玩家流失不再登录游戏时,我们会利用已经流失玩家的好友来邀请他们回归游戏,并给予双方奖励。为了实现这一目标,我们需要对活跃玩家的所有已流失好友进行排序,将更有可能接受邀请回归游戏的好友排在前面。

这个问题面临两个挑战。首先,玩家在游戏内的行为多样,我们需要利用他们的历史行为和特征来提高转化率。其次,现实场景中存在大量无标签数据。以好友召回活动为例,有标签的是指在往期活动中曝光过的好友,被邀请且回流是正样本,未被邀请和被邀请未回流是负样本。但只有 0.5% 的数据有标签,我们需要利用 99% 以上的无标签数据来提升推荐任务的成功率。

以前的推荐方法通常采用规则或节点分类方法,比如优先推荐与玩家交互更多的好友。但这些方法没有同时利用所有参与用户的特征和历史交互。为了解决这个问题,我们将好友排序问题重新定义为链路预测问题,判断两个玩家之间是否存在成功的邀请边。这样,我们可以同时考虑两个玩家的特征、历史交互特征和历史活动信息。我们尝试了多种链路预测方法,包括传统的启发式算法、基于 embedding 的方法、直接对边的特征训练分类模型以及使用模型自动学习权重的 bilinear 方法 [8]。在离线实验中,bilinear 方法的效果明显优于其他方法。

然而,bilinear 方法没有充分利用交互特征,而我们观察到交互特征在预测邀请边时是重要的判断依据。受到知识图谱表征学习论文 ConvKB [9] 的启发,我们设计了 Edge CNN 算法,将边两端玩家的特征和交互特征融合起来建模。该算法克服了 bilinear 方法没有考虑交互特征的缺点,在线上好友排序场景中提升了4.23%的转化率。然而,Edge CNN 只能学习同一维度特征的相关性,不能自由学习任意两维特征之间的关系。因此,我们设计了 Edge Transformer [10],利用多头注意力机制充分学习任意两个特征之间的相关性。在在线上实验中,Edge Transformer 进一步提升了 2.2% 的转化率。

左:Edge Transformer模型,右:Edge MAE模型

由于链路预测没有考虑图结构的全局信息,我们使用特征传播增强策略,在判断一条边是否存在时,考虑了该玩家的其他好友的状态和特征。这个操作可以用 spark 实现分布式并行计算,并且在 OGB 竞赛中获得了第一名 [11]。此外,为了充分利用无标签数据,我们设计了 Edge MAE 预训练模型 [10],通过 encoder-decoder 结构学习无标签样本中的网络结构信息。在有监督任务上,Edge MAE 表现出了稳定的效果提升,并超过了学术界最前沿的算法。

我们的链路预测算法不仅在好友推荐场景中落地,还应用到了其他场景,比如道具推荐。在线上实验中,我们的算法带来了不错的购买率提升。

总结

腾讯游戏 Deltaverse 在大规模游戏复杂网络研究中取得了丰硕成果,并将其成功应用于多个场景,有效提升了游戏运营和推荐的效率和效果。未来,我们将继续探索 Graph+AI 技术,为游戏行业带来更多创新和价值。


参考文献

[1] David M. Blei, Andrew Y. Ng, and Michael I. Jordan. "Latent dirichlet allocation." Journal of machine Learning research 3, no. Jan (2003): 993-1022.

[2] Feng Nie, Zhixiu Ye, Sifa Xie, Shuang Wu, Xin Yuan, Liang Yao, Jiazhen Peng, and Xu Cheng. "TIEG-Youpu’s Solution for NeurIPS 2022 WikiKG90Mv2-LSC."

[3] https://ogb.stanford.edu/docs/leader_linkprop/#ogbl-wikikg2

[4] Jie Tang, Jimeng Sun, Chi Wang, and Zi Yang. "Social influence analysis in large-scale networks." In Proceedings of the 15th ACM SIGKDD international conference on Knowledge discovery and data mining, pp. 807-816. 2009.

[5] Jie Chen, Tengfei Ma, and Cao Xiao. "FastGCN: Fast Learning with Graph Convolutional Networks via Importance Sampling." In International Conference on Learning Representations. 2018.

[6] Wei-Lin Chiang, Xuanqing Liu, Si Si, Yang Li, Samy Bengio, and Cho-Jui Hsieh. "Cluster-gcn: An efficient algorithm for training deep and large graph convolutional networks." In Proceedings of the 25th ACM SIGKDD international conference on knowledge discovery & data mining, pp. 257-266. 2019.

[7] Will Hamilton, Zhitao Ying, and Jure Leskovec. "Inductive representation learning on large graphs." Advances in neural information processing systems 30 (2017).

[8]Bilinear — PyTorch 2.5 documentation

[9] Dai Quoc Nguyen, Tu Dinh Nguyen, Dat Quoc Nguyen, and Dinh Phung. "A Novel Embedding Model for Knowledge Base Completion Based on Convolutional Neural Network." In Proceedings of NAACL-HLT, pp. 327-333. 2018.

[10] Liang Yao, Jiazhen Peng, Shenggong Ji, Qiang Liu, Hongyun Cai, Feng He, and Xu Cheng. "Friend Ranking in Online Games via Pre-training Edge Transformers." In Proceedings of the 46th International ACM SIGIR Conference on Research and Development in Information Retrieval, pp. 2016-2020. 2023.

[11] https://ogb.stanford.edu/docs/leader_linkprop/#ogbl-collab

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值