引言
如上图,Text2Video 模型生成的结果可能是这样的,看起来还不错,基本上都满足了 prompt 的要求,但仔细看下,好像还是有点不对劲,上图中的旗子和下图中的水流不符合物理规律啊!
继 Text2Image 火了之后,研究者们将目光投向了更加复杂的 Text2Video 领域,基于扩散模型的方法也逐渐成为了主流。一种典型思路是基于大规模的 Text-Video 数据集进行训练学习,但这种思路比较费钱,适合有钱的大厂来玩;另外一种思路是所谓的 Trainging Free,基于现有的开源模型来尝试生成一些简单的视频,代表工作有:Text2Video-Zero [1] 和 Free-bloom [2]。
但是,这类 Training Free 的方法所生成的视频存在一个严重的问题是无法保证其物理连贯性。既然让现有扩散模型在不训练的条件下来学会物理约束难以实现,那么可否找一个懂物理知识的“老师”来指导扩散模型?
GPT+Blender+SDXL
本篇论文正是采用此种思路提出了一种有趣的解决方案,而这里的“老师”是懂物理的 3D 建模软件 Blender。
论文题目: