解读《Superhuman AI for multiplayer poker》

最新推荐文章于 2024-12-30 15:04:00 发布

别叫我吴彦祖

最新推荐文章于 2024-12-30 15:04:00 发布

阅读量1k

点赞数 2

本文链接：https://blog.csdn.net/ohhhahhh/article/details/111506220

版权

本文介绍了AI Pluribus如何应对多人扑克挑战，通过自学习和不断改进策略击败人类选手。Pluribus采用动作和信息抽象降低游戏复杂性，使用改进型蒙特卡洛CFR进行训练，并进行深度限制搜索以适应对手策略。实验结果显示，Pluribus在多人扑克游戏中展现出超人水平。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

引言

为什么poker能成为AI和博弈论领域要挑战的问题？因为人们可以优雅且高效的从poker中捕捉隐藏信息。并且针对多人牌局的AI被认为是下一阶段的重点。

多人博弈理论与实际的挑战

目前AI在游戏领域取得成绩均是基于双人零和博弈(整体的利益不会改变，要么你赢我输，要么我赢你输)，AlphaGo就是基于双人零和博弈。在双人零和博弈中，应用那是均衡策略至少可以保证不输，基于双人零和博弈的AI 算法就是去寻找纳什平衡。找到一个基于三人或者更多人零和博弈的纳什平衡是非常困难的（理论上接近纳什平衡也是很困难的）。如果每个玩家单独计算找到纳什平衡，玩家联合起来的策略可能就不是一个纳什平衡。例如下面的Lemonade Stand Game：

在游戏中，每个玩家都要在这个环上找到一点离其他成员尽可能地远。左图表示了四个玩家，每个颜色代表了他们的一个纳什平衡，处于纳什平衡的玩家均匀的分布在环上。右图表示如果他们独立寻找纳什平衡，那么玩家的联合策略可能就不是一个纳什平衡。
所以作者提出，我们的目标不是寻找一个具体的博弈论解决方案，而是创造出一个AI，通过经验不断地击败人类对手包括顶级的专业选手。

Pluribus的描述

Pluribus 策略核心是持续不断地进行自学习自博弈，通过这样的策略训练，AI 系统和自己的镜像进行对抗，而不获取任何人类游戏数据或先前的 AI 游戏数据。Pluribus 利用自学习制定的离线策略为“蓝图策略”，随着真实游戏的进行，Pluribus 通过在比赛中根据自己的实际情况实时搜索更好的策略来改进蓝图策略。