作者丨王曲苑
学校丨西南大学博士生
研究方向丨人工智能、边缘计算
近些年来,AI 取得长足进步的同时,游戏一直伴随其左右,不论是Dota、星际、围棋还是德州扑克都成为检验其发展程度的验金石。2005 年 Michael Bowling 等人就在《Science》上发表
《Heads-up limit hold’em poker is solved》,2018 年 Noam Brown 等人在《Science》发表
《Superhuman AI for heads-up no-limit poker: Libratus beats top professionals》的论文研讨如何用 AI 打德扑 [1-2] 。
但是在以往工作中往往聚焦于只有两位玩家的牌局 ,这在现实牌局中往往是不现实的,于是 Noam Brown 等人继续研究如何用 AI 应对德扑多人牌局,其成果题为
《Superhuman AI for multiplayer poker》发表于《Science》 [3] ,本文即对这篇论文进行简要分析与解读。
引言
扑克能作为 AI 和博弈论领域挑战问题的原因很简单:
没有别的休闲游戏能像扑克一样要求人们优雅且高效地捕捉隐藏信息。虽然扑克仅仅被看为衡量 AI 和博弈论发展的验金石,但是策略设置中隐藏信息带来的挑战绝不仅局限于这些休闲游戏中。
但是过去的 20 年间,所有利用 AI 打扑克的系统都只设置了 2 名玩家。
设计一种针对多人牌局的超人类 AI 被普遍看做是 AI 发展的下一个关键节点。作者在这篇文章中描述了
Pluribus,一种能够在 6 人牌局中打败顶尖人类选手的新型 AI 系统。值得注意的是,这个系统是 18 年提出的 Libratus 系统的改进升级版。
多人博弈中的理论和实际挑战
正如前文所说,目前 AI 在游戏领域取得的成绩基均是基于双人零和博弈模型,简单来说就是两人或两队“你赢我输,我输你赢”的模式。由于模型特性和纳什均衡性质,我们可以证明:在双人零和博弈模型中,倘若应用纳什均衡策略则至少可以保证不输,换言之,在双人零和博弈模型中应用纳什均衡策略是不可击败的(例如两人进行石头剪刀布游戏的纳什均衡就是等概率出石头剪刀布)。这也是之前那些 AI 算法取得成功的原因:不遗余力寻找纳什均衡。
但是面对更复杂的问题,纳什均衡就心有余而力不足了。目前还没有一种能在多项式时间内找到双人非零和博弈纳什均衡的算法。就算是零和博弈,想找到 3 人或更多玩家零和博弈的纳什均衡也是十分困难的。
即使在多人博弈中每个玩家都得到了纳什均衡策略,这样执行下来的结果未必是纳什均衡的,Lemonade stand game 就是一个典型例子[4]。在 Lemonade stand game 中多个玩家同时在一个圆环上选择位置,目标是距离别人越远越好。这个博弈的纳什均衡是每个玩家在圆环上均匀分布,能达到这样效果的策略有无数多种,倘若每个玩家独立计算一