原创止观创投止观舍 前天,Google发布了一个新的AI基础世界模型Genie(中文意思是“精灵”),被认为有可能为AI领域带来革命性的突破。
网址:https://sites.google.com/view/genie-2024/
Genie模型来源于Google DeepMind发表的最新成果(Genie: Generative Interactive Environments),基于最先进的视频生成模型的思想(Villegas等人、2023年;Gupta等人、2023年),核心设计选择是时空(ST)变换器(Xu等人、2020年),在模型组件中都得到了应用。
Genie到底是什么?
Genie是第一个通过未标记互联网视频以无监督方式训练的生成式交互环境。它可以接收文本提示、合成图像、照片甚至草图或想法,并生成无数种动作可控的、能够互动的虚拟世界环境。
生成的这些场景是可玩的,允许用户控制并与环境中的元素互动,从而提供了一个全新维度的游戏和探索体验,而且它还能够从数据中学习并再现这些复杂的物理行为。
Genie的模型规模及技术架构