
摘要
扩散模型只是在图像超分辨率任务的临界点上。然而,利用扩散模型进行视频超分辨率并非易事,这不仅需要将视觉外观从低分辨率视频保存到高分辨率视频,还需要保留视频帧之间的时间一致性。在本文中,我们提出了一种新的方法,追求空间适应和时间相干性(SATeCo),用于视频超分辨率。SanteCo 专注于从低分辨率视频中学习时空指导,以校准潜在空间高分辨率视频去噪和像素空间视频重建。从技术上讲,SATeCo 冻结了预训练的 UNet 和 VAE 的所有参数,并且在 UNet 和 VAE 的解码器中只优化了两个有意设计的空间特征适应 (SFA) 和时间特征对齐 (TFA) 模块。SFA通过自适应估计每个像素的仿射参数来调节帧特征,保证了高分辨率帧合成的像素级指导。TFA 通过 self-attention 深入研究 3D 局部窗口 (tubelet) 中的特征交互,并在 tubelet 与其低分辨率对应物之间执行交叉注意力以指导时间特征对齐。在 REDS4 和 Vid4 数据集上进行的大量实验证明了我们方法的有效性。
Paper:https://arxiv.org/abs/2403.17000
1. Introduction
近年来,扩散模型[11,36,37,55]在革命图像生成方面取得了很大的进展。在其中,一系列图像超分辨率工作[36,46,52]受益于利用嵌入在扩散模型中的知识先验将低分辨率(LR)图像升级为高分辨率(HR)图像。与 2D 图像相比,视频具有更多的时间维度,在利用视频超分辨率 (VSR) 的扩散模型时带来了更多挑战。一种自然的方法是利用预先训练的扩散模型进行图像超分辨率(ISR),例如StableSR[46]来放大每个视频帧。代表性的进步[46,52]表明,ISR的扩散模型可以比传统的回归模型(如VRT[23])合成更多的细节。如图 1 所示,Stabler 生成的建筑物中窗口的边缘比 VRT 生成的边缘要清晰得多。然而,扩散模型的固有随机性可能会危及空间保真度并幻觉一些额外的视觉内容。此外,独立的逐帧超分辨率忽略了连续帧之间的关系,导致高分辨率视频中的帧不一致问题。例如,图 1 中的交通标志在 StabLSR 生成的两个相邻帧之间完全不同。
图1。通过使用StableSR[46]、VRT[23]和我们的SATeCo的不同方法生成两个相邻的帧来说明视频超分辨率。放大视图中呈现相同局部位置的区域。
一般来说,探索视频超分辨率扩散模型的困难源于两个方面:1)如何缓解扩散过程中的随机性以保持视觉外观。2)如何保证HR视频中跨帧的时间一致性。我们建议通过从低分辨率视频中学习时空指导来解决这两个问题,以管理视频超分辨率的扩散过程。为了调节空间适应,我们估计LR帧特征上的仿射参数,以调制HR帧中的每个像素。因此,像素级指导被用来很好地学习HR帧中每个像素的特征,并更好地提高空间保真度。为了在时间上协同视频帧,我们加强了 HR 帧之间的特征交互,并通过注意力机制增强了 HR 帧和 LR 帧之间的特征校准。此外,通过对 3D 局部窗口 (tubelet) 内的特征进行自我注意和交叉注意,从而促进了时间特征对齐,从而获得了较大的感受野。
为了具体化我们的想法,我们提出了一种新的 SCECo 方法来执行视频超分辨率的空间适应和时间连贯性。从技术上讲,SATeCo 使用基于转换器的视频升级器对输入 LR 视频进行上采样。然后,VAE 编码器提取 LR 视频的视频特征和潜在代码,并进一步用于扩散校准。SanteCo故意设计了空间特征自适应(SFA)和时间特征对齐(TFA)模块,并将这两个模块插入到UNet和VAE的每个解码器块中,用于潜在空间视频去噪和像素空间视频重建。在潜在空间视频去噪的正则化中,SFA 在每个上采样的 LR 帧的潜在代码上利用两个卷积层来预测尺度和偏差来调节 HR 帧的像素级特征。TFA首先在小管内的 HR 视频潜在代码上执行自注意力以增强特征交互,并进一步在 Tubelet 与其 LR 对应物之间进行交叉注意力,用于 HR 视频中的特征校准。LR视频特征以相同的方式利用,在像素空间视频重建中调节HR视频特征学习。SanteCo 最后通过神经网络参考上采样的 LR 视频来细化解码后的 HR 视频,以平衡合成质量和保真度。
本文的主要贡献是提出了SATeCo来探索视频超分辨率扩散模型中的空间适应和时间相干性。该解决方案还引出了一个优雅的观点,即如何利用LR视频中的像素级信息进行视觉外观保存,以及如何在HR视频生成中实现帧一致性。在REDS4和Vid4上的大量实验表明,SATeCo在空间质量和时间一致性方面的优越性。
2. Related Work
视频超分辨率。现代VSR方法主要基于深度神经网络,可以分为两类,即基于滑动窗口的方法和递归方法。早期的基于滑动窗口的VSR技术[1,22,50,51,53]依赖于2D或3D cnn[19,20],它结合了一系列LR帧来预测中心HR帧。为了充分利用相邻帧之间的互补信息,采用可变形卷积[43,48]进行特征对齐。受变压器架构在各种计算机视觉任务中的成功启发[6,27-29],自我注意被整合到VSR框架中[14,23,26,47]。一个代表性是VRT[23],它将时间相互注意块插入到变压器主干中,以促进运动估计、特征对齐和融合。然而,基于滑动窗口的方法很难捕获远程依赖,这可能会限制视频超分辨率的性能。与在短期内聚合来自相邻帧的信息相比,循环方法 [2, 3, 15, 17, 18, 24, 38, 39, 54] 利用隐藏状态将所有前一帧的信息顺序传播到当前帧,有利于帧恢复。例如,Chan等人[2]采用了一种具有基于流的特征对齐的双向传播方案,以最大化超分辨率中的信息收集。尽管循环模型在时间信息收集方面具有很大的能力,但当 LR 视频在长时间范围内遇到显着退化时,仍然很难恢复局部细节。
超分辨率的扩散模型。扩散模型实现的图像合成令人印象深刻的性能 [7, 11, 16, 30, 34, 55] 鼓励在图像超分辨率上部署。这些探索[9,10,13,21,31,42,49,57]利用嵌入在预训练扩散模型中的知识先验来放大图像。例如,StableSR[46]在不改变预先训练的权重的情况下,将时间感知编码器集成到Stable-Diffusion[36]模型中,并取得了良好的效果。为了进一步增强图像纹理细节的重建,Yang等人[52]引入了一个基于注意力的控制模块来保持LR和HR图像之间的像素一致性。与优化一小部分插入参数的进展不同,几种方法[13,21,49]固定预训练合成模型中的所有权重,并尝试将约束合并到反向扩散过程中以指导图像恢复。尽管知识先验的有效性已在各种基于扩散的 ISR 方法中体现出来,但将扩散模型用于视频超分辨率并保持空间保真度和时间一致性仍然是一个重大挑战。
总之,我们的工作主要集中在视频超分辨率的扩散模型上。SanteCo 的提议不仅通过探索如何通过调制 HR 帧特征来保持空间保真度,而且还研究如何使用 LR 对应物校准 HR 视频特征以获得更好的时间特征对齐。
3. Our Approach
在本节中,我们将介绍我们新提出的SATeCo,在视频超分辨率的扩散模型中追求空间适应和时间相干性。图 2 描述了架构的概述。SanteCo 从视频升级器开始,以提高输入 LR 视频的分辨率。然后,将上采样的视频输入 VAE 编码器进行视频特征提取和潜在代码预测。之后,利用空间特征自适应(SFA)和时间特征对齐(TFA)模块学习LR视频潜在代码和特征的时空指导,校准潜在空间视频去噪和像素空间视频重建。因此,这两个模块被插入到 UNet 和 VAE 中解码器的每个块中。在视频潜在代码去噪过程中,SFA估计LR视频潜在代码上的仿射参数,以调制HR视频潜在代码的每个像素。TFA首先在 Tubelet 中的 HR 视频潜在代码上执行自注意力,并通过在 Tubelet 与其 LR 对应物之间执行交叉注意力进一步增强潜在代码。同样,在 VAE 解码器中进行 SFA 和 TFA,以使用 LR 视频特征指导 HR 视频重建。最后,SATeCo设计了一个视频细化器,通过参考上采样的视频来调整解码后的HR视频,以便在合成质量和保真度之间进行良好的权衡。
图2。我们的SATeCo体系结构的概述。输入LR视频XL首先通过基于变压器的视频升级器上采样到目标分辨率。然后,将上采样的视频Xu输入到VAE编码器中,提取视频特征和潜在代码Z。接下来,根据扩散调度器将高斯噪声添加到Z中,然后利用UNet恢复噪声视频潜码进行质量增强。在潜在空间中,潜在编码器在LR潜在代码Z上提取LR潜在特征图G,然后在UNet的每个解码器块中提取空间特征自适应(SFA)和时间特征对齐(TFA)模块进行时空引导学习。给定去噪的视频潜码Z0,VAE解码器根据SFA和TFA在LR视频特征上学习到的指导对视频Xd进行解码。最后,通过参考Xu得到最终的HR视频XH合成,通过视频细化器调整解码后的视频Xd。
3.1. Video Upscaler
大多数现有的VSR方法[39,51]首先通过重采样操作对输入LR视频进行升级,然后提高其视觉质量。然而,广泛采用的重采样操作,例如双线性采样和双三次采样,可能会破坏 LR 帧中的原始视觉模式 [39],从而对后续的视频增强产生负面影响。因此,我们利用神经网络特征学习[4]提前减少帧退化的方法,提出了一种视频升级器,通过扩散模型生成更准确的上采样视频,以实现以下质量增强。
给定输入 LR 视频 XL,我们利用基于转换器的视频升级器进行视频放大,如图 3(a) 所示。它由两个级联的时间相互自注意力 (TMSA) 块 [23] 组成,用于时间聚合视频特征,以及一个像素混洗层 [40],通过特征重塑来增加视频空间分辨率。然后将具有 L 帧的上采样视频 X u = { x u i } i = 1 L X_u = \{x^i_u\}^L_{i=1} Xu={
xui}i=1L 输入到扩散模型中进行视频质量增强。
图 3. (a) 视频升级器的图示,(b) 视频细化器,( c ) 空间特征适应和 (d) 时间特征对齐模块。
3.2. Spatial Feature Adaptation Module
扩散模型的固有随机性[52]可能导致图像超分辨率中纹理细节的失真。采用扩散模型进行超分辨率的一种自然方法是通过基于卷积[46]或基于变压器的[52]结构来学习空间级条件,以指导UNet中的潜在代码去噪。这种机制只管理潜在空间中的特征正则化,发布难度来学习足够的归纳偏差,并为高分辨率图像恢复提供精确的指导。视频超分辨率也存在类似的问题。为了缓解这种情况,我们引入了一个空间特征自适应(SFA)模块,该模块从输入LR视频中动态学习像素引导进行扩散校准。同时,SFA模块强调了潜在空间视频去噪(即UNet的训练)和像素空间视频重建(即VAE的训练)的归纳偏差学习。
图3( c )说明了我们的SFA模块。给定上采样的 LR 视频 X u X_u Xu,VAE 编码器首先将 X u X_u Xu 编码为视频潜在代码 Z = { z i } i = 1 L Z = \{z^i \}^L_{i=1} Z={ zi}i=1L。接下来,我们利用基于卷积的潜在编码器 ε z \varepsilon _z εz 来提取 LR 潜在特征图 G = ε z ( Z ) G = \varepsilon_z (Z) G=