击上方关注 “终端研发部”
设为“星标”,和你一起掌握更多数据库知识
可以这样说:黑客帝国来了。
据说 Genie 2这个新型模型,可通过单张图片和文字描述生成“无限”种类的可玩 3D 世界。
在当时Sora等文生视频工具还算新鲜玩意的时候,谷歌这个能够将文本提示、草图或概念想法转化为2D的可交互式环境的项目,目标可以说相当超前。
神秘的Genie2 到底是什么?
谷歌官方的博客文章解释道,Genie 2是谷歌DeepMind推出的一款大规模基础世界模型。它能够根据单张图片或文字描述,生成可交互的3D游戏世界。简单来说,就是你给Genie 2一张图片或者一段文字,它就能帮你创造出一个逼真的3D游戏场景,而且你还能在这个场景里进行互动。
从第一人称的真实世界场景,到第三人称的驾驶环境,Genie 2生成了一个720p的世界。
Genie2 到底有什么样的亮点
一键做出3D效果的视频
举个例子,
这里我给出提示词:
一辆汽车在山林中行驶,行驶者,来不及刹车,跌落山下
然后把这段提示词交给Genie,不出10秒,看看这个效果:
比如上面的古埃及金字塔人形机器人。就是利用Genie 2响应键盘上的前进和后退操作按键,并且能够正确地识别并移动其人形机器人
记忆能力
第一次生成时,如果你生成了一座大山,如果需要进行提示词优化,只要是在同一个上下文环境,那么基本上都可以把它再次准确无误的呈现出来
比如下面的这个视频,是每次生成都会有的最终的画面。
Genie 2的核心能力和Open AI的Sora一样:文生图效果,而不一样的是,Genie 2可以实现从2D到3D的跨越,让大家体验人与大自然结合的3D世界。
智能响应键盘按键操作
这个技巧比较牛逼。只要给出一张图片,给出提示词,就能根据其指示,生成一个可交互的3D世界。我们还可以进行对人或agent进行物理操作,可以进行拖拽,旋转和反转操作,仿佛真的进入了动画进行360度互动
模型必须能弄清楚方向按键对应要移动的是机器人,上面的图片古埃及的人形机器人。就是Genie 2可以智能地响应键盘上的按键操作,正确地识别并移动角色的效果
模拟对象进行交互
比如利用Genie 2生成一个跑酷角色之后,可以和上方的气球进行相互作用。可以对气球进行爆破、用机枪进行设计,像游戏中的CS那样,可以继续宁推门开门操作。
生成不同角色动画
看下面的三个视频,这里我给出深林跳跑,丛林漫步,爬楼梯三个角色进行生成视频,Genie 2果然还是按照不同类型的角色给出了不同的行动效果。
看,有了Genie 2,是不是很强大?有了它制作多样化的游戏交互场景就变得如此的简单!
然后我们再来Genie 2到底是怎么做到的
Genie 2基于大量的游戏和视频数据进行训练,其底层利用的就是Transformer技术!
说起Transformer这个模型,可能大家还不太熟,但是作为程序员,不能不知道!
因为Transformer的基于注意力机制的神经网络语义理解更强,特别是在视频生成方面。优于扩散生成模型
Transformer的重点是Self-Attention结构,通过多维的Attention结构,网络可以捕获单词之间多种维度上的隐藏关系, 如将文本描述转换为图像或将图像转换为视频。通过扩散建模实现照片逼真的视频生成技术,采用因果编码器,将图像和视频压缩到共享潜在空间,实现跨模态的联合训练和生成,为自然语言提示生成逼真且时间一致的视频。
这些方法利用Transformer的自注意力机制来捕捉不同模态之间的关联,实现高质量的跨模态生成。 功能上,目前Genie 2 主要由两部分组成,其一是生成符合风格的、可交互的3D场景。此外Genie 2还支持3D空间中的重力、光线、反射、烟雾等物理模拟以及特殊效果模拟和生成。 比如 输入真实世界的照片后,它也能很好模拟一些物理规律,比如可模拟风中摇曳的草或河中流动的水。
物理效果
Genie 2能够在场景中通过算法模拟出水面的动效
重力
Genie 2模拟重力。
灯光
Genie 2模拟光点和定向照明。
虽然这项研究仍处于早期阶段,但Google DeepMind相信Genie 2是解决安全训练具体agent的结构性问题的途径,同时实现迈向AGI所需的广度和通用性。
最后我大胆的进行了预测,未来的Genie团队接下来会进行智能体和环境交互的进一步提升,在训练中就可以给模型引入大量的预置想象数据,这样可以提高模型的智能体能力,真实和虚拟标签相结合,来强化模型本身,这大搞就是Genie接下来要走的路线吧,作为AI领域的研究者,我非常期待这条路径的未来进展~
话说回来,Genie 2这个大模型这么厉害,AI领域的下一个世界模型会是谁家呢?这个还得请各位知友来回答了。
参考资料:
https://deepmind.google/discover/blog/genie-2-a-large-scale-foundation-world-model/