掼蛋火爆出圈，游戏AI智能体或是棋牌界的“王炸”！以《欢乐掼蛋》为例，网易数智游戏 AI 智能体技术方案详细解析！(二）

游戏智眼

已于 2024-04-29 19:33:32 修改

阅读量1.9k

点赞数 6

分类专栏：游戏 AI 文章标签：人工智能游戏

于 2024-04-29 19:33:13 首次发布

本文链接：https://blog.csdn.net/weixin_43099039/article/details/138323037

版权

游戏 AI 专栏收录该内容

45 篇文章

订阅专栏

带朋友们来回顾下上篇内容~今天，给大家带来AI 智能体技术方案详细解析！(二），欢迎大家关注点赞收藏👍

前段时间，360 公司董事长周鸿祎用个人账号在视频平台上发布一条动态：“红衣大叔成就解锁：万米高空掼蛋初体验”，视频中，他在前往美国的飞机上偶遇四位企业家，一同在万米高空玩掼蛋游戏。网友看了直呼：“这是一场千亿级别的掼蛋啊！”

（图源：网易视频）

掼蛋起源于江苏淮安，由当地的扑克游戏“跑得快”和“八十分”演化而来，在淮安方言里，“掼”是摔、砸的意思，打牌人将手中的“蛋”，即“炸弹”砸向桌面的动作，即为“掼蛋”。简单来说，掼蛋需要两副 108 张扑克牌，4 人两两组队进行，游戏规则综合了“跑得快”“八十分”“斗地主”等牌类游戏，哪队玩家最先出完手中的牌，即为胜。

淮安当地流传着一句话：“饭前不掼蛋，等于没吃饭；饭后不掼蛋，等于白吃饭！” ，从江苏火到全国，从体制内火到金融圈，掼蛋成为了新晋“社交密码”。游戏规则简单、容易凑到局、变幻莫测的配牌出牌方式，让每一局游戏都充满了悬念和挑战。这就是掼蛋独特魅力。

（图片来源：网络）

线下的掼蛋爱好者们打得火热，线上的掼蛋游戏也因方便、快捷等优点，成为大家休闲娱乐的热门选择。与其他手游相比，棋牌类型游戏更聚焦于玩家心态，是否能抓住玩家心理，是决定玩家留存率的关键因素，甚至能够直接影响游戏营收。

例如，在游戏上线初期、冷启动阶段或非高峰时段，如半夜，常常难以聚集足够的真人玩家，这限制了玩家的游戏体验。另外，传统的规则机器人缺乏智能性，无法提供有挑战性和策略性的对抗，玩家需求得不到满足，游戏体验感差，这直接导致用户留存率和活跃度的大幅下降。随着市场竞争的加剧，获取游戏新用户的成本也在不断上升，这对游戏公司的财务状况也构成了重大压力。

上一篇（一）请查看👇

掼蛋爆火出圈，AI智能体或是棋牌界的“王炸”！以《欢乐掼蛋》为例，网易数智游戏 AI 智能体技术方案详细解析！-CSDN博客文章浏览阅读851次，点赞9次，收藏19次。使用 3*14 的矩阵，对卡牌中的级牌信息进行编码，对于级牌分为两种：第一种是红心级牌：逢人配牌，可以变成大小王以外的任何牌，在组牌时点数不具有意义。掼蛋起源于江苏淮安，由当地的扑克游戏“跑得快”和“八十分”演化而来，在淮安方言里，“掼”是摔、砸的意思，打牌人将手中的“蛋”，即“炸弹”砸向桌面的动作，即为“掼蛋”。饭后不掼蛋，等于白吃饭！普通牌型的大小比较依据牌点数决定，通常 A 最大，2 最小，但同花顺中的牌型比较特殊，最小的同花顺是 A-2-3-4-5，最大的同花顺是 10-J-Q-K-A；_网易数智https://blog.csdn.net/weixin_43099039/article/details/138216234?spm=1001.2014.3001.5501

方案详情：

大规模预训练模型, 深度强化学习，深度模仿学习等技术开发的智能竞技机器人，带来更加真实的游戏体验，助力提升游戏品质。游戏AI智能体解决方案已落地多项游戏！欢迎大家前来畅聊探讨~

方案详情可以👉 ✉ V：LTT936
或查看以下卡片点击按钮【立即咨询】👇

游戏AI竞技机器人 - 网易智企大规模预训练模型, 深度强化学习，深度模仿学习等技术开发的智能竞技机器人，为游戏玩家带来更加真实的游戏体验，助力提升游戏品质https://grow.163.com/solution/combat-robot?from=csdn_yxzy_0426

领取干货资料：

《游戏 AI 实践指南》免费领取方式——评论区留言【指南】或 ✉V：LTT936，立即get√
《2023 年度游戏安全观察与实践报告》，戳我立即领取！
《2023年中国移动游戏私域运营白皮书》扫描下方二维码领取~

动作空间定义

掼蛋的动作表示的是玩家根据当前手牌进行组合得到的合法动作，总共有十种牌型，分别是单张、对子、三张、三带二、三连对（也称为两连对）、钢板（三顺）、顺子、同花顺、天王炸和普通炸弹。

我们同样使用之前所定义的卡牌的矩阵表示对出牌动作的卡牌进行编码。然而，出牌者在决定出牌时不仅要考虑如何获得牌权，还需要思考出了这张牌之后剩余的手牌如何组合。因此，我们还扩充了在执行该动作后的手牌信息作为动作的一部分，如下表所示：

特征					大小
出牌					1914
剩余手牌					1914

二分类问题

为了使用模仿学习训练智能体，需要从游戏内部收集用户数据。通过玩家的评级来筛选比赛数据来获取高水平玩家的专家轨迹。通过将每一次出牌视为一个实例，并使用监督损失来训练网络。这个问题可以被形式化为一个分类问题，我们的目标是基于给定状态来预测专家采取的动作。

然而，在实践中大多数动作都是非法的，并且遍历所有可行动作的成本很高。受 Q 网络设计的启发，我们将问题转化为一个二元分类任务，智能体所需要做的是根据每个动作判断它是否是专家所执行的动作。然而，由于专家动作数量与负样本数量的极度不平衡，采取下采样的方法进行训练：

正样本：专家执行的动作；
负样本：从合法动作中随机抽样，且保证 pass 和逢人配牌的负样本存在。

模型训练

1.网络结构

在构建智能掼蛋 AI 的过程中，对网络结构的设计与优化至关重要，特别是在处理复杂多变的状态-动作信息时。为了充分提取并利用这些蕴含丰富时序特征的数据，我们采用了精心设计的前置处理步骤，以确保主网络能够高效且精准地进行决策。具体而言，我们实施了两种关键操作：Inter-group Regularization（组间正则化）与 Channel-wise Attention（通道注意力机制）。在将经过这两步处理后的特征编码输入到主网络之前，我们还利用长短期记忆网络（LSTM）来捕获时序信息，以增强 AI 智能体在复杂掼蛋场景中的决策能力。

Inter-group Regularization（组间正则化）：在掼蛋游戏中，普通牌（非级牌）的花色在大多数情况下仅在特定牌型（如同花顺）的构建中具有特定意义，而在其他牌型组合或常规出牌策略中，不同花色的普通牌本质上并无区别。鉴于此，采取组间正则化策略，对普通牌的特征表示进行统一处理。具体来说，网络中卡牌矩阵的前 4 行（对应普通牌）通过共享权重的一维卷积模型进行处理，确保不同花色的普通牌在特征提取阶段得到一致的对待。这种设计既减少了网络参数，避免了模型过拟合，又确保了模型对普通牌的处理具备普适性和公平性，有利于提升 AI 智能体在普通牌决策上的泛化能力。

Channel-wise Attention（通道注意力机制）：为进一步挖掘掼蛋状态-动作信息中隐藏的关联性，我们在通道层面引入了注意力机制。在特征编码的各个通道上施加注意力操作，能够动态地突出重要通道，抑制无关或次要信息，从而提炼出对当前决策最具影响力的特征。通过学习每个通道的重要性权重，AI 智能体能够敏锐地捕捉到不同特征之间的相互作用与依赖关系，特别是在处理级牌、特殊牌型组合以及与队友配合等复杂情境时，通道注意力机制有助于 AI 智能体做出更为精准且符合游戏策略逻辑的决策。

利用 LSTM 提取时序信息： 在上述特征编码经过组间正则化和通道注意力机制处理后，我们将其作为输入馈送给长短期记忆网络（LSTM）。LSTM 作为一种专门设计用于处理时序数据的递归神经网络结构，具备独特的门控机制，能够有效地捕获并保留长期依赖关系。在掼蛋游戏中，时序信息尤为重要，如玩家之前的出牌顺序、牌池变化趋势、玩家间的交互历史等，这些因素对当前决策有着深远影响。

2.输入输出

模型的输入融合了当前棋局状态、可能的出牌动作以及丰富的历史信息，从而精确预测每个候选动作属于专家出牌的概率。在推理阶段，模型以高效批量处理方式对所有合法动作进行评估，最终选取概率最高的动作作为 AI 智能体的实际出牌决策。

模型输入构造：

当前棋局状态与可能出牌动作的拼接：模型首先将当前详尽的棋局状态与所有可能的出牌动作进行融合，形成一个维度为 12×9×14 的三维矩阵；

对局信息向量：模型进一步接收一个维度为 1×125 的一维向量，汇总了当前游戏级牌，玩家剩余手牌等关键信息；

历史出牌序列：模型还纳入了过去 8 次出牌的历史轨迹，以一个维度为 2×504 的二维矩阵表示。便于模型捕捉双方出牌模式的互动与演变。

模型输出与推理过程：

模型的输出是一组对应所有合法出牌动作的专家出牌概率。在推理阶段，模型以组 batch 的形式一次性接纳所有可能的出牌动作作为输入，经过神经网络推理，为每个动作生成一个对应的概率值。这些概率值反映了模型对每个动作符合专家级出牌策略程度的估计。

决策策略：

在获得所有合法动作的概率分布后，模型遵循最大化期望收益的原则，选择概率最高的动作作为最终的出牌决策。这意味着 AI 智能体在当前棋局状态下，将执行最有可能被专家级玩家采纳的出牌动作，力求在遵循策略深度的同时，最大化地模拟真实高手的实战智慧。

难度分级

掼蛋 AI 致力于打造一种兼具挑战性与公平性的对弈环境，通过精密调整关键决策参数，实现对各类玩家技能水平的精准匹配，助力玩家技能提升与沉浸式游戏享受。

1.核心技术：策略适应性与信息控制

历史信息管理：面向新手玩家，我们审慎地限制AI的历史出牌记录长度（0-8），以减轻新手承受的信息负荷，避免因过深的记忆链条而感到挫败。同时，我们运用特征mask技术对四家出牌信息进行有针对性的隐藏，使AI在与新手对弈时展示更为直观、易于理解的出牌逻辑，有利于新手快速熟悉规则并进步。

策略输出优化：AI 通常依据专家策略概率选择最高概率的出牌选项。为了适应不同难度需求，我们引入了 Thresholds 机制，设定一个概率阈值 b，允许 AI 在一定概率范围内执行次优动作，增加出牌的不可预测性与对手应对的挑战。这一设计旨在打破单一最优路径，丰富游戏战术维度与不确定性。

炸弹使用策略：通过调节 BoomProbs 参数，我们控制 AI 使用炸弹的频率。面对初级玩家，我们会适当调低此参数（如0.7-0.9），减少 AI 主动发起的高压攻势，创造相对轻松的游戏氛围。随着玩家技能提升，我们会逐步提高BoomProbs，促使AI更积极地运用炸弹等强牌，提升对局紧张度，激发玩家提升防御与反击策略。

2.精细难度分层与实证评估

我们严谨地调整各项参数，构建了包含多种策略特性的 48 种 AI 变体，它们在记忆深度、决策随机性及炸弹使用策略等方面表现出多样化的梯度。我们进行了大规模的两两对战实验，以量化分析各变体之间的相对实力，并以热力图形式清晰呈现各变体间的胜率分布。

基于实验数据，从中精选出五种具有代表性的 AI 智能体，其胜率均匀分布，分别对应五个难度等级，全面覆盖从新手入门至高手对决的技能跨度。这一设计确保每一位玩家都能找到与自身当前技能水平相匹配的 AI 对手，实现动态平衡且公正的对战条件。

方案详情：

方案详情可以👉 ✉ V：LTT936
或查看以下卡片点击按钮【立即咨询】👇

领取干货资料：

《游戏 AI 实践指南》免费领取方式——评论区留言【指南】或 ✉V：LTT936，立即get√
《2023 年度游戏安全观察与实践报告》，戳我立即领取！
《2023年中国移动游戏私域运营白皮书》扫描下方二维码领取~

模型部署

掼蛋 AI 采用服务端部署模式，游戏状态以 proto 进行序列化传递至 AI 服务进行推理，推理结果异步返回，确保与游戏逻辑的无缝对接。系统具备以下核心优势：

1.异步处理，保障游戏流畅

AI决策过程与游戏主线程分离，采用异步通信。当需要 AI 决策时，当前游戏状态被快速序列化为 protobuf 格式发送至 AI 服务。服务接收到请求后，独立进行推理计算，而游戏客户端则可继续执行其他操作，如查看回放、交流等，无需等待 AI 决策完成。这种设计有效避免了因 AI 推理导致的卡顿，确保玩家体验流畅。

2.分布式架构，弹性应对负载

AI 服务采用分布式部署，可根据实际需求动态调整计算资源。在高峰期，可通过增加服务器节点迅速提升处理能力，确保 AI 决策响应速度。低峰期则可减少资源，降低成本。分布式架构还提高了系统的容错性，即使个别服务器故障，其他节点仍能正常提供服务，确保游戏连续性。

3.全面监控，透明管理

对 AI 服务集群进行全方位资源占用监控，包括 CPU、内存、网络等关键指标，实时掌握服务运行状况，及时优化性能。同时，提供对 AI 开局数量、历史调用量及对局表现的可视化监控，既有助于服务优化与资源调度，也增强了玩家对 AI 竞技公正性的感知，提升游戏透明度与信任度。

我们的掼蛋 AI 服务通过异步处理、分布式部署与全面监控，实现了与游戏逻辑的紧密集成，确保了服务的高性能、高可用性与可扩展性，为玩家带来流畅、稳定且具有挑战性的 AI 对战体验，同时强化了服务的透明度与玩家信任。