前言:MovieFactory是第一个全自动电影生成模型,可以根据用户输入的文本信息自动扩写剧本,并生成电影级视频。其中针对预训练的图像生成模型与视频模型之间的gap提出了微调方法非常值得借鉴。这篇博客详细解读一下这篇论文《MovieFactory: Automatic Movie Creation from Text using Large Generative Models for Language and Images》
目录
贡献概述
这是第一个全自动电影生成模型,我们的方法使用户能够使用简单的文本输入创建具有平滑转换的字幕电影,产生了仅限于单一质量场景的无声音视频。首先利用 ChatGPT 将用户提供的文本扩展为用于电影生成的详细顺序脚本。然后通过视觉生成和音频检索将脚本在视觉上和声学地带入生活。
通过两阶段过程扩展了预训练的文本到图像扩散模型的能力。