为未来的总代理创造无限多样的培训环境
今天我们介绍的是 Genie 2,这是一个基础世界模型,能够生成各种可操作、可玩的 3D 环境,用于训练和评估具体代理。基于单个提示图像,它可以由人工或 AI 代理使用键盘和鼠标输入播放。
游戏在人工智能 (AI) 研究领域发挥着关键作用。它们引人入胜的性质、独特的挑战组合和可衡量的进步使它们成为安全测试和推进 AI 功能的理想环境。
事实上,自成立以来,游戏对 Google DeepMind 来说就很重要。从我们与 Atari 游戏的早期合作、AlphaGo 和 AlphaStar 等突破,到我们与游戏开发商合作对通才代理的研究,游戏一直是我们研究的中心舞台。然而,训练更通用的具身代理传统上受到足够丰富和多样化的训练环境的瓶颈。
正如我们所展示的,Genie 2 可以让未来的代理在无限的新世界课程中接受培训和评估。我们的研究还为新的、创造性的工作流程铺平了道路,用于构建交互式体验的原型。
基础能力
基础世界模型的紧急功能
到目前为止,世界模型在很大程度上仅限于对狭窄域进行建模。在 Genie 1 中,我们引入了一种生成各种 2D 世界的方法。今天我们介绍 Genie 2,它代表了总体上的重大飞跃。Genie 2 可以生成种类繁多的丰富 3D 世界。
Genie 2 是一个世界模型,这意味着它可以模拟虚拟世界,包括采取任何行动(例如跳跃、游泳等)的后果。它是在大规模视频数据集上训练的,与其他生成模型一样,它大规模展示了各种新兴功能,例如对象交互、复杂的角色动画、物理学,以及建模并因此预测其他代理行为的能力。
以下是人们与 Genie 2 互动的示例视频。对于每个示例,模型都会提示由 Imagen 3 生成的单个图像,Imagen 3 是 GDM 最先进的文本到图像模型。这意味着任何人都可以在文本中描述他们想要的世界,选择他们最喜欢的想法渲染,然后进入新创建的世界并与之交互(或在其中训练或评估 AI 代理)。在每个步骤中,人员或代理提供键盘和鼠标操作,Genie 2 模拟下一个观察。Genie 2 可以在长达一分钟内生成一致的世界,显示的大多数示例持续 10-20 秒。
操作控件
Genie 2 通过按下键盘上的键、识别角色并正确移动它来智能地响应所执行的操作。例如,我们的模型必须弄清楚箭头键应该移动机器人,而不是树木或云。
生成反事实
我们可以从同一个起始帧生成不同的轨迹,这意味着可以模拟反事实体验来训练代理。在每一行中,每个视频都从同一帧开始,但人类玩家执行的操作不同。
长水平内存
Genie 2 能够记住世界上不再可见的部分,然后在它们再次变得可观察时准确呈现它们。
使用新生成的内容生成长视频
Genie 2 动态生成新的合理内容,并在长达一分钟的时间内保持一致的世界。
多样化的环境
Genie 2 可以创建不同的视角,例如第一人称视图、等距视图或第三人称驾驶视频。
3D 结构
Genie 2 学会了创建复杂的 3D 视觉场景。
对象功能和交互
Genie 2 对各种对象交互进行建模,例如爆裂气球、打开门和射击炸药桶。
角色动画
Genie 2 学会了如何为执行不同活动的各种类型的角色制作动画。
NPC
Genie 2 对其他代理进行建模,甚至对它们之间的复杂交互进行建模。
物理
Genie 2 对水效果进行建模。
烟雾
Genie 2 对烟雾效果进行建模。
重力
Genie 2 模拟重力。
照明
Genie 2 型号 点光源和定向光源.
思考
Genie 2 对反射、泛光和彩色照明进行建模。
从真实世界的图像播放
Genie 2 还可以由真实世界的图像提示,我们看到它可以模拟风中吹拂的草或河流中流动的水。
Genie 2 支持快速原型设计
Genie 2 可以轻松快速地构建各种交互式体验的原型,使研究人员能够快速试验新环境来训练和测试具身 AI 代理。
例如,下面我们使用 Imagen 3 生成的不同图像提示 Genie 2 对纸飞机、龙、鹰或降落伞飞行之间的区别进行建模,并测试 Genie 为不同头像制作动画的能力。
由于 Genie 2 的分布式泛化功能,概念艺术和绘图可以转换为完全交互式的环境。这使艺术家和设计师能够快速构建原型,从而引导环境设计的创意过程,进一步加快研究速度。
在这里,我们展示了我们的概念艺术家制作的研究环境概念示例。
在世界模型中操作代理
通过使用 Genie 2 为 AI 代理快速创建丰富多样的环境,我们的研究人员还可以生成代理在训练过程中没有见过的评估任务。下面,我们展示了我们与游戏开发人员合作开发的 SIMA 代理示例,按照 Genie 2 通过单个图像提示合成的看不见环境的说明进行操作。
SIMA 代理旨在通过遵循自然语言指令完成一系列 3D 游戏世界中的任务。在这里,我们使用 Genie 2 生成了一个包含两扇门(一扇蓝色和一扇红色)的 3D 环境,并向 SIMA 代理提供说明以打开每扇门。在此示例中,SIMA 通过键盘和鼠标输入控制头像,而 Genie 2 生成游戏帧。
我们还可以使用 SIMA 来帮助评估 Genie 2 的功能。在这里,我们通过指示 SIMA 环顾四周并探索房屋后面来测试 Genie 2 生成一致环境的能力。
虽然这项研究仍处于早期阶段,在代理和环境生成能力方面还有很大的改进空间,但我们相信 Genie 2 是解决安全训练具体代理的结构性问题的途径,同时实现迈向 AGI 所需的广度和普遍性。
提示:“计算机游戏的图像,显示粗糙凿成的石洞或矿井内部的场景。观看者的位置是基于玩家头像上方的第三人称摄像机,向下看向头像。玩家头像是一个拿着剑的骑士。在骑士头像前面有 x3 个石拱门,骑士选择穿过这些门中的任何一扇。在第一个和内部之外,我们可以看到奇怪的绿色植物和发光的花朵排列在隧道两旁。在第二个门口的内部和之外,有一条铆接在洞壁上的尖刺铁板走廊,通向更远处不祥的光芒。通过第三扇门,我们可以看到一组粗糙的石阶上升到一个神秘的目的地。
模型架构-扩散世界模型
Genie 2 是一种自回归潜在扩散模型,在大型视频数据集上进行了训练。通过自动编码器后,视频中的潜在帧被传递到大型 transformer 动力学模型,该模型使用类似于大型语言模型使用的因果掩码进行训练。
在推理时,Genie 2 可以以自回归方式进行采样,逐帧执行单个操作和过去的潜帧。我们使用无分类器的指导来提高操作可控性。
本篇博客文章中的示例由未提炼的基础模型生成,以展示可能性。我们可以实时播放提炼版本,但会降低输出质量。
花絮
以上内容全部使用机器翻译,如果存在错误,请在评论区留言。欢迎一起学习交流!
如有侵权,请联系我删除。xingyezn@163.com