看了30000小时视频，谷歌模型发现不同于Sora的新方法，可与虚拟世界沉浸交互，向世界模型再进一步

最新推荐文章于 2024-08-22 18:08:26 发布

诗者才子酒中仙

最新推荐文章于 2024-08-22 18:08:26 发布

阅读量1k

点赞数 25

分类专栏：物联网 / 互联网 / 人工智能 / 其他文章标签：音视频人工智能机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/leyang0910/article/details/136545265

版权

物联网 / 互联网 / 人工智能 / 其他专栏收录该内容

519 篇文章 0 订阅 ¥49.90 ¥99.00

订阅专栏

超级会员免费看

谷歌DeepMind的Genie模型革新了生成式AI，能将图像转为交互式游戏环境，通过学习互联网视频中的游戏规则生成动态游戏。尽管存在速度和现实性限制，但Genie展示了通向世界模型的重要步骤，预示着AI在内容创作领域的巨大潜力。

摘要由CSDN通过智能技术生成

当下，生成式AI的高速发展让人们已经逐渐习惯了各种可以生成文本、图像、音频乃至视频的AI工具。

而最近谷歌DeepMind推出的Genie模型则实现了一种完全不同的功能，它能将图像转化为“可交互、可玩的环境”。

DeepMind在Genie项目的公告页面上展示了许多从静态起始图像生成的简单平台风格游戏样本GIF，这些起始图像包括儿童的草图、真实世界的照片等，甚至通过ImageGen2处理过的文本提示也能生成游戏的GIF示例。

图片

1.基础世界模型

Genie提供了一种生成式AI的新范式。Genie 能够接受其从未见过的图像提示，从而让人们能够与其想象中的虚拟世界互动，实质上扮演了基础世界模型的角色。

虽然 Genie 的输出乍一看与基本 2D 游戏引擎的输出相似，但该模型实际上并不像人类游戏开发人员那样绘制精灵并编写可玩的平台游戏。相反，系统将其起始图像（或多个图像）视为视频中的帧，并在接收到特定输入时生成对整个下一帧（或多个帧）应该是什么样子的最佳猜测。

Genie在训练过程中没有使用任何动作标签，而是从大量公开可用的互联网视频数据集训练而来的。

通过这种方法，Genie模型能够在观察到有限的静态视觉信息或文本描述后，基于大量训练数据中学习到的游戏规则和动态规律，推断并生成连续的、具有互动性的游戏环境。

这意味着用户上传一张简单的图画或一段描述，Genie就能够尝试构建出一个与之相关的、可供玩家探索和交互的虚拟游戏场景。

2.无需动

了解本专栏

超级会员免费看

诗者才子酒中仙

关注

25
点赞
踩
25

收藏

觉得还不错? 一键收藏
打赏
0
评论
看了30000小时视频，谷歌模型发现不同于Sora的新方法，可与虚拟世界沉浸交互，向世界模型再进一步

现代认知科学认为，人类会在头脑中构建关于周围真实世界的抽象模型，即我们通常所说的“世界模型”。关于“世界模型”的问题一直是人工智能研究的焦点。然而，大模型究竟能对世界有多深的理解，引发了两极分化的激烈争论。自Sora的出现之后，人们更加关注与好奇AI何时能从物理层面上模拟和理解环境的运作规律。Meta首席科学家LeCun坚持认为，Sora走不通“世界模型”，无论生成多么逼真的视频，都不意味着Sora理解了物理世界。现在Genie诞生了。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

诗者才子酒中仙 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。