Science论文解读:打牌一时爽,一直打牌一直爽

本文介绍了人工智能Pluribus在六人无限制德州扑克中的应用,该系统通过自学习和自博弈不断提升策略,能够在多人博弈中击败专业玩家。Pluribus使用了动作和信息抽象来简化复杂性,并采用改进型蒙特卡洛CFR进行训练,实现了在不完全信息博弈中的深度限制搜索。实验表明,Pluribus在与顶尖人类选手的对战中表现出超人的游戏水平。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

640

作者丨王曲苑

学校丨西南大学博士生

研究方向丨人工智能、边缘计算

近些年来,AI 取得长足进步的同时,游戏一直伴随其左右,不论是Dota、星际、围棋还是德州扑克都成为检验其发展程度的验金石。2005 年 Michael Bowling 等人就在《Science》上发表 《Heads-up limit hold’em poker is solved》,2018 年 Noam Brown 等人在《Science》发表 《Superhuman AI for heads-up no-limit poker: Libratus beats top professionals》的论文研讨如何用 AI 打德扑  [1-2] 。

但是在以往工作中往往聚焦于只有两位玩家的牌局 ,这在现实牌局中往往是不现实的,于是 Noam Brown 等人继续研究如何用 AI 应对德扑多人牌局,其成果题为 《Superhuman AI for multiplayer poker》发表于《Science》 [3] ,本文即对这篇论文进行简要分析与解读。

640?wx_fmt=jpeg


640?wx_fmt=png


引言

扑克能作为 AI 和博弈论领域挑战问题的原因很简单: 没有别的休闲游戏能像扑克一样要求人们优雅且高效地捕捉隐藏信息。虽然扑克仅仅被看为衡量 AI 和博弈论发展的验金石,但是策略设置中隐藏信息带来的挑战绝不仅局限于这些休闲游戏中。

但是过去的 20 年间,所有利用 AI 打扑克的系统都只设置了 2 名玩家。 设计一种针对多人牌局的超人类 AI 被普遍看做是 AI 发展的下一个关键节点。作者在这篇文章中描述了  Pluribus,一种能够在 6 人牌局中打败顶尖人类选手的新型 AI 系统。值得注意的是,这个系统是 18 年提出的 Libratus 系统的改进升级版。

多人博弈中的理论和实际挑战

正如前文所说,目前 AI 在游戏领域取得的成绩基均是基于双人零和博弈模型,简单来说就是两人或两队“你赢我输,我输你赢”的模式。由于模型特性和纳什均衡性质,我们可以证明:在双人零和博弈模型中,倘若应用纳什均衡策略则至少可以保证不输,换言之,在双人零和博弈模型中应用纳什均衡策略是不可击败的(例如两人进行石头剪刀布游戏的纳什均衡就是等概率出石头剪刀布)。这也是之前那些 AI 算法取得成功的原因:不遗余力寻找纳什均衡。

但是面对更复杂的问题,纳什均衡就心有余而力不足了。目前还没有一种能在多项式时间内找到双人非零和博弈纳什均衡的算法。就算是零和博弈,想找到 3 人或更多玩家零和博弈的纳什均衡也是十分困难的。

即使在多人博弈中每个玩家都得到了纳什均衡策略,这样执行下来的结果未必是纳什均衡的,Lemonade stand game 就是一个典型例子[4]。在 Lemonade stand game 中多个玩家同时在一个圆环上选择位置,目标是距离别人越远越好。这个博弈的纳什均衡是每个玩家在圆环上均匀分布,能达到这样效果的策略有无数多种,倘若每个玩家独立计算一

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值