#今日论文推荐# 对人胜率84%,DeepMind AI首次在西洋陆军棋中达到人类专家水平

#今日论文推荐# 对人胜率84%,DeepMind AI首次在西洋陆军棋中达到人类专家水平

DeepMind在游戏AI领域又有了新成绩,这次是西洋陆军棋。
在AI游戏领域,人工智能的进展往往通过棋盘游戏进行展现。棋盘游戏可以度量和评估人类和机器如何在受控环境中发展和执行策略。数十年来,提前规划的能力一直是AI在国际象棋、跳棋、将棋和围棋等完美信息游戏以及扑克、苏格兰场等不完美信息游戏中取得成功的关键。西洋陆军棋(Stratego)已经成为AI研究的下一批前沿领域之一。该游戏的阶段和机制的可视化图如下1a所示。该游戏面临以下两个挑战。其一,Stratego 的博弈树具有 10^535个可能状态,这要多于已经得到充分研究的不完美信息游戏无限制德州扑克(10^164个可能状态)和围棋游戏(10^360个可能状态)。其二,在Stratego的给定环境中行动需要在游戏开始时为每个玩家推理超过10^66个可能的部署,而扑克只有10^3对可能的牌。围棋和国际象棋等完美信息游戏没有私有部署阶段,因此避免了Stratego中这一挑战带来的复杂性。目前,我们不可能使用基于模型的SOTA完美信息规划技术,也无法使用将游戏分解为独立情况的不完美信息搜索技术。

由于这些原因,Stratego为研究大规模策略交互提供了一个挑战性基准。与大多数棋盘游戏相似,Stratego测试我们循序地做出相对较慢、深思熟虑和合乎逻辑决策的能力。又由于该游戏的结构非常复杂,AI研究社区几乎没能取得什么进展,人工智能体只能达到人类业余玩家的水平。因此,在从零开始且没有人类演示数据的情况下,开发智能体学习端到端策略以在Stratego的不完美信息下做出最佳决策,仍然是AI研究面临的重大挑战之一。近日,在 DeepMind 的一篇最新论文中,研究者提出了 DeepNash,它是一种无需人类演示、以无模型(model-free)方式学习Stratego自我博弈的智能体。DeepNask击败了以往的SOTA AI智能体,并在该游戏最复杂的变体Stratego Classic中实现了专家级人类玩家的水平。

论文题目:Mastering the Game of Stratego with Model-Free Multiagent Reinforcement Learning
详细解读:https://www.aminer.cn/research_report/62c3e1297cb68b460fe353beicon-default.png?t=M5H6https://www.aminer.cn/research_report/62c3e1297cb68b460fe353be
AMiner链接:https://www.aminer.cn/?f=cs

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值