该工作不仅涉及对注意力的指导,还包括对特征的显式更新,以实现与输入视频高度一致的空间-时间一致性,显著提高了所生成视频的视觉连贯性。大量实验证明了FRESCO框架在生成高质量、连贯的视频方面的有效性,相较于现有的zero-shot方法有着显著改进。

论文:https://arxiv.org/pdf/2403.12962.pdf

代码:https://github.com/williamyang1991/FRESCO

工程:https://www.mmlab-ntu.com/project/fresco/

文本到图像扩散模型在图像领域的显著功效激发了人们对其在视频领域应用潜力的广泛探索。zero-shot方法旨在将图像扩散模型扩展到视频领域,而无需进行模型训练。最近的方法主要集中在将帧间对应关系纳入注意力机制中。然而,对于确定在哪里注意到有效特征的软约束有时可能不足,导致时间不一致性。本文引入了FRESCO,即帧内对应与帧间对应相结合,建立更强大的空间-时间约束。这种增强确保了跨帧语义相似内容更一致地转换。我们的方法不仅涉及对注意力的指导,还包括对特征的显式更新,以实现与输入视频高度一致的空间-时间一致性,显著提高了所生成视频的视觉连贯性。大量实验证明了FRESCO框架在生成高质量、连贯的视频方面的有效性,相较于现有的zero-shot方法有着显著改进。

介绍

在当今数字时代,短视频已经成为主要的娱乐形式。这些视频的编辑和艺术渲染具有相当重要的实际意义。最近扩散模型在图像编辑方面取得的进展已经通过自然语言提示使用户能够方便地操纵图像。尽管在图像领域取得了这些进展,视频处理仍然存在独特的挑战,特别是在确保自然运动和时间一致性方面。

通过在大量视频数据集上训练视频模型或在单个视频上微调重构的图像模型可以学习到具有时间一致性的运动,然而这既不经济也不方便普通用户。作为替代,zero-shot方法通过改变图像模型的推理过程,使用额外的时间一致性约束,为视频处理提供了一种高效的途径。除了高效之外,zero-shot方法还具有与设计用于图像模型的各种辅助技术(如和LoRA)高度兼容的优点,使得操作更加灵活。

现有的zero-shot方法主要集中在改进注意力机制上。这些技术通常用跨帧注意力替换自注意力,跨多个帧聚合特征。然而,这种方法只确保了粗粒度的全局样式一致性。为了实现更精细的时间一致性,像Rerender-A-Video和FLATTEN这样的方法假设生成的视频保持与原始视频相同的帧间对应关系。它们将原始视频的光流引入到特征融合过程中。虽然这种策略表现出了希望,但仍存在三个未解决的问题。

  • 不一致性。 在处理过程中光流的变化可能导致不一致的引导,从而导致在没有适当前景移动的情况下,前景的部分出现在静止背景区域中(图2(a)(f))。
  • 覆盖不足。 在遮挡或快速运动影响光流精确估计的区域,生成的约束不足,导致变形,如图2(c)-(e)所示。
  • 不准确性。 逐帧生成受限于局部优化,随着时间的推移错误会累积(图2(b)中由于前几帧没有参考手指导致手指缺失)。

FRESCO_人工智能

为了解决上述关键问题,我们提出了FRamE Spatial-temporal COrrespondence (FRESCO)。虽然先前的方法主要集中在约束帧间的时间对应上,但我们认为保留帧内的空间对应同样至关重要。我们的方法确保语义上相似的内容被协调地操作,从而在转换后保持其相似性。这种策略有效地解决了前两个挑战:它防止了前景被错误地转换到背景中,并增强了光流的一致性。对于光流不可用的区域,原始帧内的空间对应可以作为一种监管机制,如上图2所示。

在本方法中,FRESCO被引入到两个层面:注意力和特征。在注意力层面上,引入了FRESCO引导的注意力。它在[5]中的光流引导基础上构建,并通过整合输入帧的自相似性丰富了注意力机制。它允许有效利用输入视频的帧间和帧内线索,以更受约束的方式将注意力集中于有效特征上。

在特征层面上,提出了FRESCO感知特征优化。这不仅仅影响特征注意力;它通过梯度下降对U-Net解码器层中的语义上有意义的特征进行了明确更新,以与输入视频的高空间-时间一致性密切对齐。这两个增强的协同作用导致了性能的显著提升,如图1所示。为了克服最后一个挑战,采用了多帧处理策略。批处理内的帧是集体处理的,使它们可以相互指导,而anchor帧在批处理之间是共享的,以确保批处理间的一致性。对于长视频转换,使用了一种启发式方法来选择关键帧,并对非关键帧帧进行插值。

本工作的主要贡献包括:

  • 一种由帧时空对应引导的新型zero-shot扩散框架,用于连贯灵活的视频转换。
  • 将FRESCO引导的特征注意力和优化结合起来,作为一个强大的帧内和帧间约束,比单独使用光流具有更好的一致性和覆盖性。
  • 通过联合处理批处理帧并确保批处理间一致性来进行长视频转换。

FRESCO_视频转换_02

相关工作

图像扩散模型。 近年来,图像扩散模型在文本引导的图像生成和编辑方面呈现出爆炸性增长。扩散模型通过迭代去噪过程合成图像。DALLE-2利用CLIP将文本与图像对齐用于文本到图像生成。Imagen级联扩散模型用于高分辨率生成,其中使用无类别指导来改善文本条件。Stable Diffusion 基于潜在扩散模型,在紧凑的潜在空间中去噪以进一步降低复杂性。

文本到图像模型催生了一系列图像处理模型。Prompt2Prompt引入交叉注意力控制以保持图像布局。为了编辑真实图像,提出了DDIM反演和Null-Text反演,将真实图像嵌入到嘈杂的潜在特征中以进行具有注意力控制的编辑。

除了文本条件,还引入了各种灵活的条件。在生成过程中引入了图像引导。对象的外观和样式可以通过微调文本嵌入、模型权重或编码器来定制。引入了控制路径,为细粒度生成提供结构或布局信息。我们的zero-shot框架不改变预训练模型,因此与这些条件兼容,可用于灵活控制和定制。

zero-shot文本引导视频编辑。 虽然已经研究了在视频上训练或微调的大型视频扩散模型,但本文侧重于轻量级和高度兼容的zero-shot方法。zero-shot方法可以分为基于反演和无反演方法。

无反演方法主要使用进行转换。Text2Video-Zero通过移动噪声来模拟动作。ControlVideo将扩展到具有跨帧注意力和帧间平滑的视频。Video和Rerender-A-Video使用光流对先前编辑的帧进行变形和融合,以改善时间一致性。与基于反演的方法相比,无反演方法允许更灵活的条件设定,并且与定制模型具有更高的兼容性,使用户能够方便地控制输出外观。然而,由于缺乏DDIM反演特征的指导,无反演框架容易出现闪烁问题。我们的框架也是无反演的,但进一步结合了帧内对应关系,极大地提高了时间一致性,同时保持了高度的可控性。

方法

初步

FRESCO_光流_03

整体框架

FRESCO_ide_04

FRESCO_视频转换_05

提出的特征适应直接优化特征,以使其与I在空间和时间上具有高度一致性。与此同时,我们的注意力适应通过对如何以及在哪里关注有效特征施加软约束,间接提高了一致性。发现将这两种适应形式结合起来可以获得最佳性能。

FRESCO-Aware特征优化

FRESCO_光流_06

FRESCO-Guided 注意力

FRESCO-Guided 注意力层包含三个连续模块:空间引导注意力,高效的跨帧注意力和时间引导注意力,如图3所示。

FRESCO_光流_07

FRESCO_ide_08

FRESCO_ide_09

长视频转换

FRESCO_光流_10

实验

FRESCO_人工智能_11

与最先进方法的比较

与三种最近的无反演zero-shot方法进行了比较: Text2Video-Zero、ControlVideo和RerenderA-Video。为了确保公平比较, 所有方法都采用了相同的ControlNet、SDEdit 和LoRA 设置。如图5所示, 所有方法都成功地根据提供的文本提示转换了视频。然而, 依赖于 ControlNet 条件的无反演方法, 如果条件质量较低, 可能会出现视频编辑质量下降的情况, 出现模糊或运动模糊等问题。例如, ControlVideo 无法生成狗和拳击手的合理外观。Text2Video-Zero 和Rerender-A-Video 难以保持猫的姿势和拳击手套的结构。相比之下, 我们的方法可以基于提出的稳健的FRESCO指导生成一致的视频。

FRESCO_ide_12

为了定量评估,我们遵循标准做法,采用FramAcc(基于CLIP的逐帧编辑准确性评估指标)、Tmp-Con(相邻帧之间基于CLIP的余弦相似度评估指标)和Pixel-MSE(对齐相邻帧之间的平均均方像素误差评估指标)。进一步报告了SpatCon(在VGG特征上的Lspat评估指标)来评估空间一致性。结果表明,我们的方法在编辑准确性和时间一致性方面表现最佳。还进行了一项用户研究,共有57名参与者。参与者的任务是在四种方法中选择最喜欢的结果。表1显示了在11个测试视频中的平均偏好率,结果显示我们的方法成为最受欢迎的选择。

FRESCO_人工智能_13

消融研究

为了验证不同模块对整体性能的贡献,系统地禁用了框架中的特定模块。图6展示了整合空间和时间对应关系的效果。基线方法仅使用跨帧注意力来保持时间上的一致性。通过引入与时间相关的适应性,我们观察到一些一致性方面的改进,比如纹理的对齐和太阳位置在两帧之间的稳定性。与此同时,与空间相关的适应性有助于在转换过程中保持姿势。

FRESCO_视频转换_14

除了空间引导注意力,我们的空间一致性损失也发挥着重要作用,如图10所验证的那样。在这个例子中,快速运动和模糊使得光流难以预测,导致了一个大的遮挡区域。空间对应关系指导在约束这个区域的渲染方面特别重要。显然,每种适应都做出了独特的贡献,比如消除了不需要的滑雪杆和不一致的雪花纹理。两者的结合产生了最一致的结果,这在图10(b)-(e)的像素均方误差得分中得到了量化验证,分别为0.031、0.028、0.025、0.024。     

FRESCO_视频转换_15

FRESCO_光流_16

FRESCO_光流_17

表2提供了每个模块的影响的定量评估。与视觉结果一致,很明显每个模块都对提高时间上的一致性有所贡献。值得注意的是,所有适应的组合效果最好。

FRESCO_光流_18

图11消融了提出的高效跨帧注意力。与图2(b)中的Rerender-A-Video一样,逐帧转换容易受到新出现物体的影响。我们的跨帧注意力允许在批量帧内注意所有唯一对象,这不仅高效而且更加鲁棒,如图12所示。

FRESCO_视频转换_19

FRESCO_人工智能_20

更多结果

长视频转换。 图1展示了长视频转换的示例。一个包含400帧的16秒视频被处理,其中32帧被选为扩散式转换的关键帧,其余的368帧非关键帧被插值。由于FRESCO指导生成了连贯的关键帧,非关键帧展现出了与之一致的插值效果,如图14所示。

FRESCO_视频转换_21

视频着色。 我们的方法可以应用于视频着色。如图15所示,通过将输入的L通道与转换视频的AB通道结合,可以为输入着色而不改变其内容。

FRESCO_光流_22

限制和未来工作

在限制方面,首先,Rerender-A-Video直接在像素级别对齐帧,在高质量光流的情况下优于我们的方法。希望未来探索这两种方法的自适应组合,以发挥各自的优势。其次,通过强制空间对应一致性与输入视频一致,我们的方法不支持大的形状变形和显著外观变化。大的形变使得使用原始视频的光流作为自然运动的可靠先验变得具有挑战性。这个限制是zero-shot模型固有的。一个潜在的未来方向是结合学习的运动先验。

总结

本文提出了一种zero-shot框架,用于调整图像扩散模型以进行视频转换。展示了保留帧内空间对应性的重要作用,以及与帧间时间对应性结合的作用,这在先前的zero-shot方法中很少探讨。全面的实验验证了我们的方法在转换高质量和连贯视频方面的有效性。所提出的FRESCO约束与现有的图像扩散技术高度兼容,表明其在其他文本引导的视频编辑任务中的潜在应用,例如视频超分辨率和着色。