CVPR`24 | FRESCO：高质量、连贯的Zero-shot视频转换新方案（北大&南洋理工）_the frame spatial-temporal correspondence-CSDN博客

本文链接：https://blog.csdn.net/AIGCer/article/details/137097893

论文链接：https://arxiv.org/pdf/2403.12962.pdf
代码链接：https://github.com/williamyang1991/FRESCO
工程地址：https://www.mmlab-ntu.com/project/fresco/

文本到图像扩散模型在图像领域的显著功效激发了人们对其在视频领域应用潜力的广泛探索。zero-shot方法旨在将图像扩散模型扩展到视频领域，而无需进行模型训练。最近的方法主要集中在将帧间对应关系纳入注意力机制中。然而，对于确定在哪里注意到有效特征的软约束有时可能不足，导致时间不一致性。本文引入了FRESCO，即帧内对应与帧间对应相结合，建立更强大的空间-时间约束。这种增强确保了跨帧语义相似内容更一致地转换。我们的方法不仅涉及对注意力的指导，还包括对特征的显式更新，以实现与输入视频高度一致的空间-时间一致性，显著提高了所生成视频的视觉连贯性。大量实验证明了FRESCO框架在生成高质量、连贯的视频方面的有效性，相较于现有的zero-shot方法有着显著改进。

介绍

在当今数字时代，短视频已经成为主要的娱乐形式。这些视频的编辑和艺术渲染具有相当重要的实际意义。最近扩散模型在图像编辑方面取得的进展已经通过自然语言提示使用户能够方便地操纵图像。尽管在图像领域取得了这些进展，视频处理仍然存在独特的挑战，特别是在确保自然运动和时间一致性方面。

通过在大量视频数据集上训练视频模型或在单个视频上微调重构的图像模型可以学习到具有时间一致性的运动，然而这既不经济也不方便普通用户。作为替代，zero-shot方法通过改变图像模型的推理过程，使用额外的时间一致性约束，为视频处理提供了一种高效的途径。除了高效之外，zero-shot方法还具有与设计用于图像模型的各种辅助技术（如和LoRA）高度兼容的优点，使得操作更加灵活。

现有的zero-shot方法主要集中在改进注意力机制上。这些技术通常用跨帧注意力替换自注意力，跨多个帧聚合特征。然而，这种方法只确保了粗粒度的全局样式一致性。为了实现更精细的时间一致性，像Rerender-A-Video和FLATTEN这样的方法假设生成的视频保持与原始视频相同的帧间对应关系。它们将原始视频的光流引入到特征融合过程中。虽然这种策略表现出了希望，但仍存在三个未解决的问题。

不一致性。 在处理过程中光流的变化可能导致不一致的引导，从而导致在没有适当前景移动的情况下，前景的部分出现在静止背景区域中（图2(a)(f)）。
覆盖不足。 在遮挡或快速运动影响光流精确估计的区域，生成的约束不足，导致变形，如图2(c)-(e)所示。
不准确性。 逐帧生成受限于局部优化，随着时间的推移错误会累积（图2(b)中由于前几帧没有参考手指导致手指缺失）。

为了解决上述关键问题，我们提出了FRamE Spatial-temporal COrrespondence （FRESCO）。虽然先前的方法主要集中在约束帧间的时间对应上，但我们认为保留帧内的空间对应同样至关重要。我们的方法确保语义上相似的内容被协调地操作，从而在转换后保持其相似性。这种策略有效地解决了前两个挑战：它防止了前景被错误地转换到背景中，并增强了光流的一致性。对于光流不可用的区域，原始帧内的空间对应可以作为一种监管机制，如上图2所示。

在本方法中，FRESCO被引入到两个层面：注意力和特征。在注意力层面上，引入了FRESCO引导的注意力。它在[5]中的光流引导基础上构建，并通过整合输入帧的自相似性丰富了注意力机制。它允许有效利用输入视频的帧间和帧内线索，以更受约束的方式将注意力集中于有效特征上。

在特征层面上，提出了FRESCO感知特征优化。这不仅仅影响特征注意力；它通过梯度下降对U-Net解码器层中的语义上有意义的特征进行了明确更新，以与输入视频的高空间-时间一致性密切对齐。这两个增强的协同作用导致了性能的显著提升，如图1所示。为了克服最后一个挑战，采用了多帧处理策略。批处理内的帧是集体处理的，使它们可以相互指导，而anchor帧在批处理之间是共享的，以确保批处理间的一致性。对于长视频转换，使用了一种启发式方法来选择关键帧，并对非关键帧帧进行插值。

本工作的主要贡献包括：

一种由帧时空对应引导的新型zero-shot扩散框架，用于连贯灵活的视频转换。
将FRESCO引导的特征注意力和优化结合起来，作为一个强大的帧内和帧间约束，比单独使用光流具有更好的一致性和覆盖性。
通过联合处理批处理帧并确保批处理间一致性来进行长视频转换。

方法

初步

遵循基于和的稳定扩散无反演图像转换流程，并将其调整为视频转换。首先，将输入帧映射到潜在特征，其中。然后，应用DDPM正向过程向添加高斯噪声。

其中，是在DDPM步骤中预先定义的超参数。然后，在DDPM的反向过程中，稳定扩散预测潜在特征的噪声，以迭代地将 = 转换为，并由提示指导。

其中，和是预先定义的超参数，是随机采样的标准高斯噪声，是在去噪步骤中预测的。

其中，是基于步骤、文本提示和条件预测的的噪声。可以是从提取的边缘、姿势或深度图，以提供额外的结构或布局信息。最后，通过解码器获得转换后的帧。允许用户通过使用T设置不同的初始噪声水平来调整变换程度，即使用大的T可以在和之间产生更大的外观变化。为简单起见，将在接下来的内容中省略去噪步骤。

整体框架

提出的zero-shot视频转换流程如图3所示。给定一组视频帧，按照前面的方法进行DDPM前向和后向过程，以获得其转换后的。我们的改进重点是将的时空对应关系纳入U-Net中。具体来说，将的时空对应关系定义为：

时空对应关系。 这种帧间对应关系是通过相邻帧之间的光流来衡量的，光流在保持时间一致性方面起着关键作用。将从到的光流和遮挡掩码分别表示为和，我们的目标是确保和在非遮挡区域共享。
空间对应关系。 这种帧内对应关系是通过单个帧内像素之间的自相似性来衡量的。其目的是使与共享自相似性，即语义上相似的内容被转换为相似的外观，反之亦然。这种语义和空间布局的保持隐含地有助于在转换过程中提高时间一致性。

我们的调整重点是U-Net内部解码器层的输入特征和注意力模块，因为解码器层比编码器层的噪声更少，并且比潜在空间更有语义意义：

特征适应。 我们提出了一种新颖的 FRESCO-aware 特征优化方法，如图3所示。设计了一个空间一致性损失和一个时间一致性损失，直接优化解码器层特征，以增强它们与输入帧的时间和空间一致性。
注意力适应。 用 FRESCO-guided 注意力替换了自注意力，包括三个组件，如图 3 所示。空间引导注意首先根据输入帧的自相似性聚合特征。然后，交叉帧注意力用于聚合所有帧的特征。最后，时间引导注意力沿着相同的光流聚合特征，进一步加强时间一致性。

提出的特征适应直接优化特征，以使其与在空间和时间上具有高度一致性。与此同时，我们的注意力适应通过对如何以及在哪里关注有效特征施加软约束，间接提高了一致性。发现将这两种适应形式结合起来可以获得最佳性能。

FRESCO-Aware特征优化

UNet的每个解码器层的输入特征通过梯度下降进行更新：

更新后的将替换进行后续处理。

对于时间一致性损失，希望每两个相邻帧之间相应位置的特征值保持一致,

对于空间一致性损失，使用特征空间中的余弦相似度来衡量的空间对应关系。具体来说，对进行一次DDPM正向和反向过程，并提取UNet解码器特征，表示为。由于单步向前过程添加的噪声可以忽略不计，可以作为的语义有意义的表示，用于计算语义相似度。然后，可以简单地计算所有元素对之间的余弦相似度作为归一化特征的格拉姆矩阵。让表示归一化的，使得的每个元素都是单位向量。希望的格拉姆矩阵接近于的格拉姆矩阵，

FRESCO-Guided 注意力

FRESCO-Guided 注意力层包含三个连续模块：空间引导注意力，高效的跨帧注意力和时间引导注意力，如图3所示。

空间引导注意力。 与自注意力相反，空间引导注意力中的patches根据在转换之前的patches之间的相似性相互聚合，而不是根据它们自己的相似性。具体而言，与在前面计算一致，对执行单步DDPM正向和反向过程，并提取其自注意力query向量和关键向量。然后，空间引导注意力使用query向量聚合。

其中是一个缩放因子，是query向量的维度。如图4所示，前景patch主要会聚合C形前景区域内的特征，而对背景区域的注意力较少。因此，比与输入帧具有更好的空间一致性。

高效的跨帧注意力。 我们将自注意力替换为跨帧注意力，以规范全局风格的一致性。与使用第一帧或上一帧作为参考（例如，图4中的V1），这种方法无法处理新出现的对象（例如，图2（b）中的手指），或者使用所有可用帧作为参考（例如，图4中的V2），这在计算上是低效的。我们的目标是同时考虑所有帧，但尽可能地减少冗余。因此，我们提出了高效的跨帧注意力：除了第一帧外，我们只引用每帧中在其上一帧中未见的区域（即，遮挡区域）。因此，我们可以构建所有这些patch的跨帧索引。这些patch的键和值可以被采样为，。然后，应用跨帧注意力

时间引导的注意力。 受到FLATTEN的启发，我们使用基于流的注意力来规范细粒度的跨帧一致性。我们追踪不同帧中相同的patch，如图4所示。对于每个光流，我们构建了沿着这个光流的所有patch的跨帧索引。在FLAT-TEN中，每个patch只能注意到其他帧中的patch，当一个流包含很少的patch时，这种情况是不稳定的。与之不同的是，时间引导的注意力没有这样的限制,

其中是一个比例因子。是FRESCO-guided注意力层的最终输出。

长视频转换

长视频转换时，可以同时处理的帧数受GPU内存的限制。采用Rerender-A-Video的方法，仅对关键帧进行zero-shot视频转换，并使用 Ebsynth 基于转换后的关键帧来插值非关键帧。

关键帧选择。 Rerender-A-Video 均匀采样关键帧，这是次优的。我们提出了一个启发式关键帧选择算法，如算法1所示。将固定的采样步骤放宽到一个间隔，并在运动较大时（通过帧之间的距离来衡量）密集采样关键帧。

关键帧转换。 对于超过个关键帧，将它们分成几个-帧的批次。每个批次包括前一个批次中的第一帧和最后一帧，以施加批间一致性，即第个批次的关键帧索引为 {1,(k − 1)(N − 2) + 2,(k − 1)(N − 2) + 3，...，k(N − 2) + 2}。此外，在整个去噪步骤中，我们记录每个批次的第一帧和最后一帧的潜在特征（式（2）），并使用它们替换下一个批次中相应的潜在特征。

实验

实现细节。 实验在一台NVIDIA Tesla V100 GPU上进行。默认情况下，根据输入视频分辨率设置批大小，损失权重，比例因子。对于特征优化，我们使用Adam优化器将更新次，学习率为0.4。我们发现，当时，优化大多数时候会收敛，较大的K并没有带来明显的收益。我们使用GMFlow来估计光流和遮挡掩模。背景平滑处理用于改善背景区域的时间一致性。

与最先进方法的比较

与三种最近的无反演zero-shot方法进行了比较：Text2Video-Zero、ControlVideo和Rerender-A-Video。为了确保公平比较，所有方法都采用了相同的、和LoRA 设置。如图5所示，所有方法都成功地根据提供的文本提示转换了视频。然而，依赖于条件的无反演方法，如果条件质量较低，可能会出现视频编辑质量下降的情况，出现模糊或运动模糊等问题。例如，ControlVideo 无法生成狗和拳击手的合理外观。Text2Video-Zero 和Rerender-A-Video 难以保持猫的姿势和拳击手套的结构。相比之下，我们的方法可以基于提出的稳健的FRESCO指导生成一致的视频。

为了定量评估，我们遵循标准做法，采用FramAcc（基于CLIP的逐帧编辑准确性评估指标）、Tmp-Con（相邻帧之间基于CLIP的余弦相似度评估指标）和Pixel-MSE（对齐相邻帧之间的平均均方像素误差评估指标）。进一步报告了SpatCon（在VGG特征上的Lspat评估指标）来评估空间一致性。结果表明，我们的方法在编辑准确性和时间一致性方面表现最佳。还进行了一项用户研究，共有57名参与者。参与者的任务是在四种方法中选择最喜欢的结果。表1显示了在11个测试视频中的平均偏好率，结果显示我们的方法成为最受欢迎的选择。

消融研究

为了验证不同模块对整体性能的贡献，系统地禁用了框架中的特定模块。图6展示了整合空间和时间对应关系的效果。基线方法仅使用跨帧注意力来保持时间上的一致性。通过引入与时间相关的适应性，我们观察到一些一致性方面的改进，比如纹理的对齐和太阳位置在两帧之间的稳定性。与此同时，与空间相关的适应性有助于在转换过程中保持姿势。

在图7中，研究了注意力适应和特征适应的效果。显然，每个单独的增强都在一定程度上改善了时间上的一致性，但都没有达到完美。只有两者的结合才完全消除了头发不一致的情况，这在图7(b)-(e)的像素均方误差得分中得到了量化验证，分别为0.037、0.021、0.018、0.015。关于注意力适应，我们进一步深入研究了时间引导注意力和空间引导注意力。它们施加的约束力由和决定。如图8-9所示，的增加有效增强了背景区域两个转换帧之间的一致性，而的增加则提高了转换后的猫和原始猫之间的姿势一致性。

除了空间引导注意力，我们的空间一致性损失也发挥着重要作用，如图10所验证的那样。在这个例子中，快速运动和模糊使得光流难以预测，导致了一个大的遮挡区域。空间对应关系指导在约束这个区域的渲染方面特别重要。显然，每种适应都做出了独特的贡献，比如消除了不需要的滑雪杆和不一致的雪花纹理。两者的结合产生了最一致的结果，这在图10(b)-(e)的像素均方误差得分中得到了量化验证，分别为0.031、0.028、0.025、0.024。

表2提供了每个模块的影响的定量评估。与视觉结果一致，很明显每个模块都对提高时间上的一致性有所贡献。值得注意的是，所有适应的组合效果最好。

图11消融了提出的高效跨帧注意力。与图2(b)中的Rerender-A-Video一样，逐帧转换容易受到新出现物体的影响。我们的跨帧注意力允许在批量帧内注意所有唯一对象，这不仅高效而且更加鲁棒，如图12所示。

FRESCO在优化前使用扩散特征。由于U-Net被训练用于预测噪声，所以在注意力层之后的特征（接近输出层）是有噪声的，导致优化失败（图13(b)）。与此同时，四通道的（公式（3））非常紧凑，不适合用于扭曲或插值。优化会导致严重的模糊和过度饱和的伪影（图13(c)）。

限制和未来工作

在限制方面，首先，Rerender-A-Video直接在像素级别对齐帧，在高质量光流的情况下优于我们的方法。希望未来探索这两种方法的自适应组合，以发挥各自的优势。其次，通过强制空间对应一致性与输入视频一致，我们的方法不支持大的形状变形和显著外观变化。大的形变使得使用原始视频的光流作为自然运动的可靠先验变得具有挑战性。这个限制是zero-shot模型固有的。一个潜在的未来方向是结合学习的运动先验。

总结

本文提出了一种zero-shot框架，用于调整图像扩散模型以进行视频转换。展示了保留帧内空间对应性的重要作用，以及与帧间时间对应性结合的作用，这在先前的zero-shot方法中很少探讨。全面的实验验证了我们的方法在转换高质量和连贯视频方面的有效性。所提出的FRESCO约束与现有的图像扩散技术高度兼容，表明其在其他文本引导的视频编辑任务中的潜在应用，例如视频超分辨率和着色。