通过无模型多代理强化学习掌握Stratego游戏

目前的工作不仅增加了越来越多的游戏,人工智能系统可以玩得和人类一样好,甚至比人类更好,而且还可能促进强化学习方法在现实世界、大规模多代理问题中的进一步应用,这些问题的特点是信息不完善,因此目前无法解决。目前的工作不仅增加了越来越多的游戏,人工智能系统可以玩得和人类一样好,甚至比人类更好,而且还可能促进强化学习方法在现实世界、大规模多代理问题中的进一步应用,这些问题的特点是信息不完善,因此目前无法解决。我们介绍了DeepNash,一个在人类专家层面玩不完美的信息游戏Stratego的自主代理。
摘要由CSDN通过智能技术生成

Stratego是一款流行的双人不完美信息棋盘游戏。由于其复杂性源于其巨大的游戏树、在不完善的信息下进行决策以及一开始的分段部署阶段,Stratego对人工智能(AI)构成了挑战。以前的计算机程序充其量只在业余水平上运行。

Perolat等人引入了一种无模型的多代理强化学习方法,并表明它可以在Stratego中实现人类专家级绩效。目前的工作不仅增加了越来越多的游戏,人工智能系统可以玩得和人类一样好,甚至比人类更好,而且还可能促进强化学习方法在现实世界、大规模多代理问题中的进一步应用,这些问题的特点是信息不完善,因此目前无法解决。

我们介绍了DeepNash,一个在人类专家层面玩不完美的信息游戏Stratego的自主代理。Stratego是人工智能(AI)尚未掌握的为数不多的标志性棋盘游戏之一。

这是一个以双重挑战为特征的游戏:它需要像国际象棋一样进行长期的战略思维,但它也需要像扑克一样处理不完美的信息。

支撑DeepNash的技术使用一种游戏理论、无模型的深度强化学习方法,无需搜索,通过从头开始的自我游戏来学习掌握Stratego。DeepNash击败了Stratego中现有的最先进的人工智能方法,并在Gravon游戏平台上实现了年初至今(2022年)和历史前三名,与人类专家玩家竞争。

 

Stratego是一款流行的双人不完美信息棋盘游戏。由于其复杂性源于其巨大的游戏树、在不完善的信息下进行决策以及一开始的分段部署阶段,Stratego对人工智能(AI)构成了挑战。以前的计算机程序充其量只

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

sam5198

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值