ICML 2022 | 游戏AI学会见招拆招，腾讯AI Lab提出「对手建模」算法框架GSCU-CSDN博客

腾讯AILab绝艺团队提出对手建模算法框架，可在游戏场景中针对当前对手动态智能切换策略，实现“见招拆招”。该方法在理论上和实际针对不同对手的实验中都能取得更高的收益。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

来源：机器之心
本文约1200字，建议阅读5分钟腾讯 AI Lab「绝艺」团队提出了一套「对手建模」算法框架，在游戏场景中可针对当前对手动态智能切换策略。

当前业内知名的竞技游戏 AI，在与人对抗过程中往往采取固定的策略，这可能会带来两方面的性能损耗：[1] 如果这个 “固定” 策略有漏洞并且一旦被人发现，那么这个漏洞就可以被一直复现。换句话说，采取固定策略的 AI 容易被人“套路”。[2] 采取固定策略的 AI 不能针对不同对手采取不同策略来获取更高的收益。例如，在二人石头 - 剪刀 - 布游戏中，如 AI 能针对有出剪刀倾向的对手多出石头，针对有出石头倾向的对手多出布，那么理论上 AI 能有更高的性能上限。

对此，腾讯 AI Lab「绝艺」团队提出了一套 “对手建模” 算法框架，在游戏场景中可针对当前对手动态智能切换策略，实现“见招拆招”。该方法在理论上和实际针对不同对手的实验中都能取得更高的收益，相关工作已被机器学习顶会 ICML 2022 收录。

论文链接：

https://proceedings.mlr.press/v162/fu22b.html

这项工作的核心在于如何在多智能体系统中对其他智能体不可观察的隐变量（例如策略，喜好，目标，等）进行建模，推测，并在此基础上调整自己的决策。因此，该项工作对其他相关领域也有一定的借鉴意义，如人机协作，智能交通，金融分析等。尤其在人机协作环境中，如果 AI 能高效地推测人的习惯、喜好和目标，将大幅提升协作效率。

该项目团队主要从事棋牌类 AI「绝艺」相关研究。「绝艺」自 2016 年面世后，已四次夺得世界顶级围棋赛事冠军，包括 UEC 杯、AI 龙星战、腾讯世界人工智能围棋大赛、世界智能围棋公开赛等，并自 2018 年起无偿担任中国国家围棋队训练专用 AI。之前，团队在 1v1 麻将场景提出全新策略优化算法 ACH，已被 ICLR 2022 接收。

方法简介

结合 Bandit 思想，本文作者提出一种新的对手建模框架：Greedy when Sure and Conservative when Uncertain（GSCU）。GSCU 总体构思在于：当针对对手能获得更高收益时，那么 AI 就采用一个实时计算的 “激进” 策略（Greedy Policy）来针对对手；反之，AI 采用一个离线计算好的，最坏情况最好的，“保守”策略（Conservative Policy）。如下图所示，GSCU 包含两个离线训练模块，和一个在线测试模块。

离线训练模块一：对手策略 embedding 学习。该模块尝试学习一个 variational embedding 空间来表征任何一个可能的对手策略。该方法具体采用 Conditional Variational Autoencoder （CVAE）的架构：