摘要
大型文本到图像扩散模型在生成高质量图像方面表现出令人印象深刻的熟练程度。然而,当将这些模型应用于视频域时,确保视频帧之间的时间一致性仍然是一个巨大的挑战。本文提出了一种新的零镜头文本引导视频到视频翻译框架,使图像模型适应视频。该框架包括两个部分:关键帧翻译和全视频翻译。第一部分使用自适应的扩散模型来生成关键帧,并应用分层跨帧约束来加强形状、纹理和颜色的一致性。第二部分通过时间感知补丁匹配和帧混合将关键帧传播到其他帧。我们的框架以低成本(无需重新训练或优化)实现了全局样式和局部纹理时间一致性。自适应与现有图像兼容
扩散技术,允许我们的框架采取它们的优点,比如定制一个特定的主题使用LoRA,并引入额外的空间引导ControlNet。广泛的实验结果表明所提出框架相对于现有框架的有效性绘制高质量和时间连贯的方法视频。
介绍
最近的文本到图像扩散模型,如DALLE-2 [26], Imagen[30],稳定扩散[28]表现异常能够生成多样化和高质量的图像由自然语言引导。根据它,是一群人的图像编辑方法已经出现,包括模型微调定制对象生成[29],imageto-图像翻译[20],图像修复[1]和对象编辑[10]。这些应用程序允许用户进行合成并使用自然语言毫不费力地编辑图像统一的扩散框架,大大提高了创作效率。随着视频内容在社交网络上的流行媒体平台,要求更精简的视频创作工具也随之兴起。然而,这是一个关键的挑战残留物:直接应用现有的图像扩散模型到视频会导致严重的闪烁问题。
此外,重新设计的视频模型不兼容使用现有的现成图像模型。第二种解决方案是在单个视频[36]上微调图像模型,这对于长视频来说效率较低。过度拟合单个视频也可能会降低原始视频的性能模型。第三种解决方案涉及零样本方法[17]不需要训练。在扩散采样过程中,对潜在特征施加跨框架约束用于时间一致性。零样本策略需要计算资源较少,且基本兼容结合现有的图像