视频生成领域的最新进展主要利用了短时内容的扩散模型。然而,这些方法往往无法对复杂的叙事进行建模,也无法在较长时间内保持角色的一致性,而这对于电影等长篇视频制作至关重要。
对此,浙大&阿里发布了一种新颖的分层框架MovieDreamer,它将自回归模型的优势与基于扩散的渲染相结合,开创了具有复杂情节发展和高视觉保真度的长时视频生成。
不仅实现了卓越的视觉和叙事质量,而且还有效地将生成内容的持续时间大大延长到当前能力之外。
相关链接
论文链接:https://arxiv.org/pdf/2407.16655
项目主页:https://aim-uofa.github.io/MovieDreamer/
github链接:https://github.com/aim-uofa/MovieDreamer
论文阅读
MovieDreamer:连贯长视觉序列的分层生成
摘要
视频生成领域的最新进展主要利用了短时内容的扩散模型。然而,这些方法往往无法对复杂的叙事进行建模,也无法在较长时间内保持角色的一致性,而这对于电影等长篇视频制作至关重要。我们提出了 MovieDreamer,这是一种新颖的分层框架,它将自回归模型的优势与基于扩散的渲染相结合,开创了具有复杂情节发展和高视觉保真度的长时视频生成。我们的方法利用自回归模型实现全局叙事连贯性,预测视觉标记序列,然后通过扩散渲染将其转换为高质量的视频帧。这种方法类似于传统的电影制作过程,将复杂的故事分解为可管理的场景捕捉。此外,我们使用多模式脚本,通过详细的角色信息和视觉风格丰富场景描述,增强场景之间的连续性和角色身份。我们在各种电影类型中进行了广泛的实验,表明我们的方法不仅实现了卓越的视觉和叙事质量,而且还有效地将生成内容的持续时间大大延长到当前能力之外。
方法
MovieDreamer 的框架。我们的自回归模型将多模态脚本作为输入,并预测关键帧的标记。然后将这些标记渲染成图像,形成用于扩展视频生成的锚帧。我们的方法确保视觉叙事的长期连贯性和短期保真度,同时很好地保留角色的身份。
我们提出了一种用于生成扩展视频序列的新框架,该框架利用自回归模型的优势实现长期时间一致性,并利用扩散模型实现高质量图像渲染。我们的方法以多模态脚本为条件,以自回归方式预测关键帧标记,并使用这些帧作为锚点来生成全长视频。我们的方法提供了灵活性,可以支持零样本生成以及少样本场景,在这些场景中,生成结果需要遵循给定的风格。我们特别注意在多模态脚本设计、自回归训练和扩散渲染过程中保留角色的身份。
效果
故事结果
我们的 MovieDreamer 能够生成非常长的故事结果,并且能够很好地保存多个角色。
角色 ID 保存
MovieDreamer 能够以零镜头方式在长时间跨度内保留角色身份。
视频结果
MovieDreamer与现有的长视频生成方法正交,但从中受益。 现有的长视频生成方法通常侧重于以一张图片或文字作为输入来生成一段长视频,确保数十秒的高质量结果。然而,将它们扩展到生成几分钟的长视频需要极大的计算量,而生成几个小时的长视频则几乎是不可能的。我们从不同的角度解决了这个问题,即通过分层的方式生成长视频。具体来说,我们首先生成关键帧,这些关键帧作为生成长视频的锚帧。此外,我们的范式统一了长故事生成和长视频生成。首先,我们在生成内容的长度方面超越了现有的方法,无论是在故事生成还是视频生成方面,同时确保质量不会下降。其次,我们的生成质量也超过了目前最先进的方法,这在评估指标中得到了证明。最后,我们的方法非常灵活,允许使用一些目前高质量的闭源视频生成模型来创建具有丰富叙事的高质量长视频,同时很好地保留了多个角色的一致性。 MovieDreamer + Luma
与现有方法相比
首先,我们的生成范式可以生成丰富的叙事内容,在时长方面显著超越现有方法。我们生成的长内容并非简单的循环。其次,定量指标有力地证明了我们的方法在生成长内容的同时还能确保高质量的结果。
更多结果
结论
我们提出 MovieDreamer 来解决生成具有复杂叙事的长时视觉内容的挑战。该方法巧妙地结合了自回归和扩散的优点,并且能够生成长视频。此外,我们设计了多模式脚本,旨在在生成的序列中保持角色一致性。我们进一步引入了 ID 保留渲染,以更好地保留角色 ID,并支持由于上下文建模而进行的少量电影创作。这项工作可能为未来自动化长时视频制作的进步开辟令人兴奋的可能性。