看了30000小时视频,谷歌模型发现不同于Sora的新方法,可与虚拟世界沉浸交互,向世界模型再进一步

谷歌DeepMind的Genie模型革新了生成式AI,能将图像转为交互式游戏环境,通过学习互联网视频中的游戏规则生成动态游戏。尽管存在速度和现实性限制,但Genie展示了通向世界模型的重要步骤,预示着AI在内容创作领域的巨大潜力。
摘要由CSDN通过智能技术生成

当下,生成式AI的高速发展让人们已经逐渐习惯了各种可以生成文本、图像、音频乃至视频的AI工具。

而最近谷歌DeepMind推出的Genie模型则实现了一种完全不同的功能,它能将图像转化为“可交互、可玩的环境”。

DeepMind在Genie项目的公告页面上展示了许多从静态起始图像生成的简单平台风格游戏样本GIF,这些起始图像包括儿童的草图、真实世界的照片等,甚至通过ImageGen2处理过的文本提示也能生成游戏的GIF示例。

图片

图片

1.基础世界模型

Genie提供了一种生成式AI的新范式。Genie 能够接受其从未见过的图像提示,从而让人们能够与其想象中的虚拟世界互动,实质上扮演了基础世界模型的角色。

虽然 Genie 的输出乍一看与基本 2D 游戏引擎的输出相似,但该模型实际上并不像人类游戏开发人员那样绘制精灵并编写可玩的平台游戏。相反,系统将其起始图像(或多个图像)视为视频中的帧,并在接收到特定输入时生成对整个下一帧(或多个帧)应该是什么样子的最佳猜测。

Genie在训练过程中没有使用任何动作标签,而是从大量公开可用的互联网视频数据集训练而来的。

通过这种方法,Genie模型能够在观察到有限的静态视觉信息或文本描述后,基于大量训练数据中学习到的游戏规则和动态规律,推断并生成连续的、具有互动性的游戏环境。

这意味着用户上传一张简单的图画或一段描述,Genie就能够尝试构建出一个与之相关的、可供玩家探索和交互的虚拟游戏场景。

2.无需动

  • 25
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

诗者才子酒中仙

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值