SIMA 可扩展可指导多世界代理 - Google DeepMind

2024-3-13

SIMA,Scalable Instructable Multiworld Agent,译为可扩展可指导多世界代理。

Blog:用于 3D 虚拟环境的 SIMA 通才 AI 代理 - Google DeepMind

https://deepmind.google/discover/blog/sima-generalist-ai-agent-for-3d-virtual-environments/

Paper:Scaling Instructable Agents Across Many Simulated Worlds.pdf (storage.googleapis.com)

By the SIMA Team 


Learning in Blog

Why SIMA appear?

视频游戏是人工智能 (AI) 系统的关键试验场。与现实世界一样,游戏是丰富的学习环境,具有响应迅速的实时设置和不断变化的目标。

SIMA Team宣布一个新的里程碑——将重点从单个游戏转移到一个通用的、可指导的游戏 AI 代理。

它是一种用于 3D 虚拟设置的通用 AI 代理。Google DeepMind与游戏开发商合作,对 SIMA 进行各种视频游戏的培训。这项研究标志着智能体首次证明它可以理解广泛的游戏世界,并遵循自然语言指令在其中执行任务,就像人类一样。

学会在各种游戏设置中遵循指令可以为任何环境解锁更有用的人工智能代理。SIMA Team希望SIMA和其他代理研究能够将视频游戏用作沙盒,以更好地了解AI系统如何变得更有用。

为了让SIMA接触到许多环境,我们与游戏开发商建立了许多合作关系,以进行研究。我们与八家游戏工作室合作,在九款不同的视频游戏上训练和测试了 SIMA,分别是Coffee Stain(《英灵神殿》、《满意》、《模拟山羊 3》)、Foulball Hangover(《Hydroneer》)、Hello Games(《无人深空》)、Keen Software House(《太空工程师》)、RubberbandGames(《摇摆不定的生活》)、Strange Loop Games(《生态》)和 Tuxedo Labs & Saber Interactive(《拆解》)

SIMA产品组合中的每款游戏都开辟了一个新的互动世界,包括一系列需要学习的技能,从简单的导航和菜单使用,到采矿资源、驾驶宇宙飞船或制作头盔。

SIMA Team同样使用了四个研究环境,包括用Unity构建的一个名为“建筑实验室”的新环境,智能体需要用积木构建雕塑,以测试他们的对象操作和对物理世界的直观理解。

SIMA包括预先训练的视觉模型,以及一个包含内存并输出键盘和鼠标操作的主模型

SIMA 是一种 AI 代理,可以感知和理解各种环境,然后采取行动来实现指示的目标。它包括一个专为精确图像语言映射而设计的模型和一个预测屏幕上接下来会发生什么的视频模型。我们根据SIMA产品组合中特定于3D设置的训练数据对这些模型进行了微调。

我们的 AI 代理不需要访问游戏的源代码,也不需要定制的 API。它只需要两个输入:屏幕上的图像用户提供的简单、自然的语言指令。SIMA使用键盘和鼠标输出来控制游戏的中心字符来执行这些指令。这个简单的界面是人类使用的,这意味着SIMA可以与任何虚拟环境进行交互

SIMA 的当前版本针对 600 项基本技能进行了评估,涵盖导航(例如“左转”)、对象交互(“爬梯子”)和菜单使用(“打开地图”)。SIMA Team已经训练 SIMA 执行可以在大约 10 秒内完成的简单任务。

SIMA Team表示:“希望我们未来的代理能够处理需要高级战略规划和多个子任务才能完成的任务,例如“寻找资源并建立营地”。总的来说,这是人工智能的一个重要目标,因为虽然大型语言模型已经产生了强大的系统,可以捕获有关世界的知识并生成计划,但它们目前缺乏代表我们采取行动的能力。 ”

跨游戏泛化

SIMA Team证明,一个受过许多游戏训练的代理比一个只学会了如何玩一个游戏的代理要好。在评估中,SIMA代理从SIMA Team的产品组合中训练了九个3D游戏,其表现明显优于所有专门针对每个游戏进行训练的专业代理。更重要的是,一个接受过除一款游戏以外的所有游戏训练的智能体平均而言,在这场看不见的游戏中的表现几乎与专门接受过该游戏训练的智能体一样好。重要的是,这种在全新环境中发挥作用的能力凸显了SIMA在培训之外的泛化能力。这是一个有希望的初步结果,但需要更多的研究才能使SIMA在看得见和看不见的游戏中发挥人类水平。

研究结果还表明,SIMA的性能依赖于语言,在对照测试中,智能体没有接受任何语言培训或指导,它的行为是适当但漫无目的的。例如,代理可能会收集资源,这是一种常见的行为,而不是走到它被指示去的地方。

我们评估了 SIMA 按照指示完成近 1500 个独特的游戏内任务的能力,部分使用人类裁判。作为我们的基线比较,我们使用环境专用 SIMA 代理的性能(经过训练和评估以在单个环境中遵循指令)。我们将这种性能与三种类型的通用 SIMA 代理进行了比较,每种代理都在多个环境中进行了训练。 

推进人工智能代理研究

SIMA的研究结果显示了开发新一波通用语言驱动的人工智能代理的潜力。这是早期研究,SIMA Team期待在更多的培训环境中进一步构建SIMA,并整合更多功能的模型。

随着向更多的培训领域展示SIMA,SIMA Team期望它变得越普遍和通用。通过更先进的模型,SIMA Team希望提高SIMA对更高层次语言指令的理解和能力,以实现更复杂的目标。

最终,SIMA Team的研究正在朝着更通用的人工智能系统和代理的方向发展,这些系统和代理能够理解并安全地执行各种任务,从而对在线和现实世界中的人们有所帮助。


Learning in Paper

摘要

论文介绍了一个名为“Scalable, Instructable, Multiworld Agent(SIMA)”的项目,旨在训练一个能够根据自由形式指令在各种虚拟三维环境中完成任务的智能体。该项目采用了一种通用的人类接口,即输入是图像观察和语言指令,输出是键盘和鼠标操作,以实现对多种复杂环境的理解和控制。该方法的目的是让智能体能够在任何模拟的三维环境中执行人类可以完成的任务,并且可以在不同的环境中进行测试。作者介绍了他们的动机、目标以及初步结果,在多个研究环境和商业视频游戏中都取得了积极的效果。


方法描述

该研究使用了两种类型的环境:商业视频游戏专门用于研究的人工智能环境作为训练数据,并利用人工智能技术来训练一个能够根据语言指令执行任务的智能体。这些环境提供了丰富的技能和挑战,使智能体能够在不同的情况下学习并执行各种任务。


方法改进

为了提高数据的质量,研究人员采用了多种数据收集方法,包括单人自由游戏、双人合作游戏等。在数据预处理阶段,他们还进行了过滤和重混,以突出最重要的学习经验。此外,研究人员还使用了多个预先训练好的模型,如SPARC和Phenaki,以进一步提高智能体的学习效果。


解决的问题

该研究旨在开发一种能够根据自然语言指令执行任务的智能体。通过使用多种游戏环境和预先训练好的模型,研究人员成功地训练了一个能够完成一系列任务的智能体。这项工作为未来的自然语言交互和人工智能应用提供了一种新的解决方案。

论文实验

谷歌的研究团队SIMA Team进行了对比实验,探索了将自然语言指令与虚拟环境中的行为相连接的方法。他们使用多个不同的游戏和模拟器来测试SIMA的性能。实验结果表明,SIMA能够在各种游戏中完成任务,但仍有改进的空间。作者还进行了零样本迁移学习的实验,结果显示,即使没有训练数据的情况下,SIMA仍然能够表现出一定的能力。最后,通过人类专家的评估,比较了SIMA和人类在特定任务上的表现,结果显示,人类玩家在这些任务上仅取得了60%的成功率,而SIMA则比人类表现更好。

总结

总的来说,本文展示了SIMA作为一种通用语言模型的潜力,并为未来的研究提供了参考。


 其他资料

SIMA学习游戏技能的过程是通过观察和记录人类玩家在游戏中的行为和他们的指令来进行的

DeepMind的团队记录了玩家之间的互动,例如一个玩家执行任务,而另一个玩家提供指导。这种方法使得SIMA能够理解语言指令与游戏玩法行为之间的联系,从而更好地执行基于自然语言的指令。

此外,SIMA包含了专为精确图像-语言映射设计的模型和预测屏幕后续变化的视频模型。这些模型经过针对SIMA所适用的3D环境的特定训练数据的优化。

未来展望

谷歌DeepMind展示了SIMA在多款游戏中接受训练后,在未见过的游戏中的表现几乎与专门针对那款游戏训练的Agent相同,这显示了SIMA超越其训练范围的泛化能力。随着研究的深入,我们可以期待SIMA在未来能够在更多领域发挥作用,从而更好地服务于人类社会。

  • 22
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值