强化学习(1) | 夺旗行动:复杂合作角色的出现

DeepMind的最新研究展示了强化学习在Quake III竞技场的夺旗游戏中实现人类水平的表现。AI代理在复杂合作环境中,如多角色的夺旗游戏,能够与人类和AI队友有效合作,即使在限制反应速度后,仍能展现出竞争优势。这种方法有望应用于更多复杂游戏环境。
摘要由CSDN通过智能技术生成


今天,你AI了没?

关注:决策智能与机器学习,学点AI干货



出处 | DeepMind

翻译 | Ethon


640?wx_fmt=jpeg


掌握多人电子游戏中的策略、战术理解和团队合作是人工智能研究的一个关键挑战。在我们最新的文章中,我们发表了强化学习的新进展,我们发明的方法在Quake III 竞技场的“夺旗游戏”中获得了人类水平的表现。


“夺旗游戏”是一个复杂的、多角色的环境,它是一款经典的第一人称多人3D游戏。我们的AI代理成功的与人类及AI队友进行了合作,即使让其与人类玩家的反应速度相当,仍能获得很优异的表现。


后续,我们将展示这些方法在Quake III 竞技场其他游戏中的应用。


640?wx_fmt=png

AI角色正直玩夺旗游戏。上图来自一个红方队员的第一视角。(左)室内环境 (右)室外环境


640?wx_fmt=png

AI代理正在玩其他的竞技场游戏。(左)Harvester  (右)在Ironwood地图上的夺旗游戏


数十亿人居住在这个星球上,虽然每个个体都有自己的目标和行为,但仍能团结到一起,组建成队伍、组织和社会,并表现出令人惊奇的集体智慧。我们称其为多角色学习:大量的独立个体必须单独行动,并学习与其他角色进行交互与合作。这是一个非常困难的问题,因为对于相互合作、适应的角色们,外部环境是不断的变化的。


我们选择第一人称的多角色3D视频游戏为平台来研究这个问题。这些游戏代表了最受欢迎的电子游戏类型,并吸引了数百万玩家,因为它们具有沉浸式的游戏体验,以及它们在战略、战术、手眼协调和团队协作方面所带来的挑战。


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值