解读《Superhuman AI for multiplayer poker》

本文介绍了AI Pluribus如何应对多人扑克挑战,通过自学习和不断改进策略击败人类选手。Pluribus采用动作和信息抽象降低游戏复杂性,使用改进型蒙特卡洛CFR进行训练,并进行深度限制搜索以适应对手策略。实验结果显示,Pluribus在多人扑克游戏中展现出超人水平。
摘要由CSDN通过智能技术生成

引言

为什么poker能成为AI和博弈论领域要挑战的问题?因为人们可以优雅且高效的从poker中捕捉隐藏信息。并且针对多人牌局的AI被认为是下一阶段的重点。

多人博弈理论与实际的挑战

目前AI在游戏领域取得成绩均是基于双人零和博弈(整体的利益不会改变,要么你赢我输,要么我赢你输),AlphaGo就是基于双人零和博弈。在双人零和博弈中,应用那是均衡策略至少可以保证不输,基于双人零和博弈的AI 算法就是去寻找纳什平衡。找到一个基于三人或者更多人零和博弈的纳什平衡是非常困难的(理论上接近纳什平衡也是很困难的)。如果每个玩家单独计算找到纳什平衡,玩家联合起来的策略可能就不是一个纳什平衡。例如下面的Lemonade Stand Game:
Lemonade Stand Game
在游戏中,每个玩家都要在这个环上找到一点离其他成员尽可能地远。左图表示了四个玩家,每个颜色代表了他们的一个纳什平衡,处于纳什平衡的玩家均匀的分布在环上。右图表示如果他们独立寻找纳什平衡,那么玩家的联合策略可能就不是一个纳什平衡。
所以作者提出,我们的目标不是寻找一个具体的博弈论解决方案,而是创造出一个AI,通过经验不断地击败人类对手包括顶级的专业选手。

Pluribus的描述

Pluribus 策略核心是持续不断地进行自学习自博弈,通过这样的策略训练,AI 系统和自己的镜像进行对抗,而不获取任何人类游戏数据或先前的 AI 游戏数据。Pluribus 利用自学习制定的离线策略为“蓝图策略”,随着真实游戏的进行,Pluribus 通过在比赛中根据自己的实际情况实时搜索更好的策略来改进蓝图策略。

大型不完备信息博弈的抽象化

为了降低游戏的复杂性,作者忽略了一些考虑因素并且将类似的决策点放在一起,这个过程称之为抽象。在抽象之后,划分的决策点被认为是相同决策点。作者在 Pluribus 中使用了动作抽象信息抽象

动作抽象

动作抽象主要是减少AI所要考虑的动作即将一些产生影响相似的动作归为一类。例如:在德州扑克中ÿ

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值