谷歌第二代基础模型Genie登场,如何评价这一模型?

击上方关注 “终端研发部

设为“星标”,和你一起掌握更多数据库知识

可以这样说:黑客帝国来了。

据说 Genie 2这个新型模型,可通过单张图片和文字描述生成“无限”种类的可玩 3D 世界。

在当时Sora等文生视频工具还算新鲜玩意的时候,谷歌这个能够将文本提示、草图或概念想法转化为2D的可交互式环境的项目,目标可以说相当超前。

神秘的Genie2 到底是什么?

谷歌官方的博客文章解释道,Genie 2是谷歌DeepMind推出的一款大规模基础世界模型。它能够根据单张图片或文字描述,生成可交互的3D游戏世界。简单来说,就是你给Genie 2一张图片或者一段文字,它就能帮你创造出一个逼真的3D游戏场景,而且你还能在这个场景里进行互动。

从第一人称的真实世界场景,到第三人称的驾驶环境,Genie 2生成了一个720p的世界。

Genie2 到底有什么样的亮点

一键做出3D效果的视频

举个例子,

这里我给出提示词:

一辆汽车在山林中行驶,行驶者,来不及刹车,跌落山下

然后把这段提示词交给Genie,不出10秒,看看这个效果:

比如上面的古埃及金字塔人形机器人。就是利用Genie 2响应键盘上的前进和后退操作按键,并且能够正确地识别并移动其人形机器人

记忆能力

第一次生成时,如果你生成了一座大山,如果需要进行提示词优化,只要是在同一个上下文环境,那么基本上都可以把它再次准确无误的呈现出来

 比如下面的这个视频,是每次生成都会有的最终的画面。

Genie 2的核心能力和Open AI的Sora一样:文生图效果,而不一样的是,Genie 2可以实现从2D到3D的跨越,让大家体验人与大自然结合的3D世界。

智能响应键盘按键操作

这个技巧比较牛逼。只要给出一张图片,给出提示词,就能根据其指示,生成一个可交互的3D世界。我们还可以进行对人或agent进行物理操作,可以进行拖拽,旋转和反转操作,仿佛真的进入了动画进行360度互动

模型必须能弄清楚方向按键对应要移动的是机器人,上面的图片古埃及的人形机器人。就是Genie 2可以智能地响应键盘上的按键操作,正确地识别并移动角色的效果

模拟对象进行交互

比如利用Genie 2生成一个跑酷角色之后,可以和上方的气球进行相互作用。可以对气球进行爆破、用机枪进行设计,像游戏中的CS那样,可以继续宁推门开门操作。

生成不同角色动画

看下面的三个视频,这里我给出深林跳跑,丛林漫步,爬楼梯三个角色进行生成视频,Genie 2果然还是按照不同类型的角色给出了不同的行动效果。


看,有了Genie 2,是不是很强大?有了它制作多样化的游戏交互场景就变得如此的简单! 

然后我们再来Genie 2到底是怎么做到的

Genie 2基于大量的游戏和视频数据进行训练,其底层利用的就是Transformer技术!

说起Transformer这个模型,可能大家还不太熟,但是作为程序员,不能不知道!

因为Transformer的基于注意力机制的神经网络语义理解更强,特别是在视频生成方面。优于扩散生成模型

Transformer的重点是Self-Attention结构,通过多维的Attention结构,网络可以捕获单词之间多种维度上的隐藏关系, 如将文本描述转换为图像或将图像转换为视频。通过扩散建模实现照片逼真的视频生成技术,采用因果编码器,将图像和视频压缩到共享潜在空间,实现跨模态的联合训练和生成,为自然语言提示生成逼真且时间一致的视频。

这些方法利用Transformer的自注意力机制来捕捉不同模态之间的关联,实现高质量的跨模态生成。   功能上,目前Genie 2 主要由两部分组成,其一是生成符合风格的、可交互的3D场景。此外Genie 2还支持3D空间中的重力、光线、反射、烟雾等物理模拟以及特殊效果模拟和生成。 比如 输入真实世界的照片后,它也能很好模拟一些物理规律,比如可模拟风中摇曳的草或河中流动的水。

物理效果

Genie 2能够在场景中通过算法模拟出水面的动效

重力

Genie 2模拟重力。

灯光

Genie 2模拟光点和定向照明。

虽然这项研究仍处于早期阶段,但Google DeepMind相信Genie 2是解决安全训练具体agent的结构性问题的途径,同时实现迈向AGI所需的广度和通用性。

最后我大胆的进行了预测,未来的Genie团队接下来会进行智能体和环境交互的进一步提升,在训练中就可以给模型引入大量的预置想象数据,这样可以提高模型的智能体能力,真实和虚拟标签相结合,来强化模型本身,这大搞就是Genie接下来要走的路线吧,作为AI领域的研究者,我非常期待这条路径的未来进展~

话说回来,Genie 2这个大模型这么厉害,AI领域的下一个世界模型会是谁家呢?这个还得请各位知友来回答了。

参考资料:

https://deepmind.google/discover/blog/genie-2-a-large-scale-foundation-world-model/

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

androidstarjack

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值