Recurrent Video Restoration Transformer with Guided Deformable Attention

mytzs123

已于 2024-04-21 09:42:37 修改

阅读量193

点赞数

分类专栏：施磊文章标签： transformer 深度学习人工智能

于 2023-03-09 23:35:04 首次发布

本文链接：https://blog.csdn.net/mytzs123/article/details/129430985

版权

施磊专栏收录该内容

3 篇文章 0 订阅

订阅专栏

本文提出了一种名为RVRT的新方法，它结合了并行和递归视频恢复的优势。RVRT通过全局递归框架处理局部相邻帧，减少了模型大小和内存消耗，同时通过引导变形注意力实现视频剪辑间的对齐。这种方法在视频超分辨率、去模糊和去噪任务上表现出最先进的性能，同时平衡了模型大小、内存使用和运行时间。

摘要由CSDN通过智能技术生成

具有引导变形注意的递归视频恢复变换器

视频恢复旨在从多个低质量帧中恢复多个高质量帧。现有的视频恢复方法通常分为两种极端情况，即，它们要么并行恢复所有帧，要么以重复的方式逐帧恢复视频，这将导致不同的优点和缺点。通常，前者具有时间信息融合的优点。然而，它具有大的模型大小和密集的内存消耗；后者具有相对较小的模型大小，因为它跨帧共享参数；然而，它缺乏长期依赖性建模能力和并行性。在本文中，我们试图通过提出一种递归视频恢复变压器（即RVRT）来综合这两种情况的优点。RVRT在全局递归框架内并行处理局部相邻帧，这可以实现模型大小、有效性和效率之间的良好权衡。具体而言，RVRT将视频划分为多个剪辑，并使用先前推断的剪辑特征来估计后续剪辑特征。在每个剪辑中，不同的帧特征通过隐式特征聚合被联合更新。在不同的剪辑中，引导的可变形注意力被设计用于剪辑到剪辑的对齐，该对齐从整个推断剪辑中预测多个相关位置，并通过注意力机制聚集其特征。在视频超分辨率、去模糊和去噪方面的大量实验表明，所提出的RVRT在平衡模型大小、测试内存和运行时间的基准数据集上实现了最先进的性能。

1 Introduction

视频恢复，如视频超分辨率、去模糊和去噪，已成为近年来的热门话题。它旨在从降级（例如，下采样、模糊或噪声）的低质量视频中恢复清晰清晰的高质量视频[80，11，4，38]。它在实时流媒体[97]、视频监控[49]、老电影修复[78]等领域有着广泛的应用。并行方法和递归方法已成为解决各种视频恢复问题的主要策略。通常，这两种方法各有优缺点。并行方法[2，25，80，72，36，63，99，27，35，4，38]支持分布式部署，并通过直接融合来自多个帧的信息来实现良好的性能，但它们通常具有较大的模型大小，并为长序列视频消耗巨大的内存。同时，递归模型[24，59，21，23，26，28，9，11，45，55，98，62]重用相同的网络块，以保存参数，并基于先前细化的帧特征预测新的帧特征，但顺序处理策略不可避免地导致长程相关性建模的信息丢失和噪声放大[14]，并使其难以并行化。

考虑到并行和递归方法的优点和缺点，在本文中，我们提出了一种循环视频恢复变压器（RVRT），该变压器兼顾了两个方面的优点。一方面，RVRT将递归设计引入到基于变压器的模型中，以减少模型参数和内存使用。另一方面，它将相邻帧作为剪辑一起处理，以减少视频序列长度并减轻信息丢失。具体来说，我们首先将视频分成固定长度的视频片段。然后，从第一个剪辑开始，我们基于先前推断的剪辑特征和来自较浅层的当前剪辑的旧特征来细化后续剪辑特征。在每个剪辑中，不同的帧特征通过自我关注机制被联合提取、隐式对齐并有效融合[77，51，39]。在不同的剪辑中，信息以比以前的重复方法更大的隐藏状态逐剪辑累积。

要实现上述RVRT模型，一个很大的挑战是如何在使用前一个视频剪辑进行特征细化时对齐不同的视频剪辑。大多数现有的对齐技术[58、65、59、87、9、15、72、80、11、38]是为帧到帧对齐而设计的。将它们应用于片段对片段对齐的一种可能方式是在对齐所有帧对之后引入额外的特征融合阶段。相反，我们提出了一种名为引导可变形注意力（GDA）的单阶段视频到视频对齐方法。更具体地，对于目标剪辑中的参考位置，我们首先在光流的引导下估计来自支持剪辑中不同帧的多个相关位置的坐标，然后通过注意力机制动态地聚集所有位置的特征。

与之前的对齐方法相比，GDA有几个优点：1）与仅从一帧中采样一个点的基于光流的扭曲相比[59，87，9]，GDA受益于从视频剪辑中采样的多个相关位置。2）与相互注意不同[38]，GDA利用来自任意位置的特征，而不受局部注意中的小感受野或全局注意中的巨大计算负担的影响。此外，GDA允许通过双线性插值直接关注非整数位置。3）与在特征聚合中使用固定权重的可变形卷积[15，100，72，80，11，10]不同，GDA生成动态权重以聚合来自不同位置的特征。它还支持任意位置编号，并允许帧到帧和视频到视频对齐，无需任何修改。

我们的贡献总结如下：

•我们提出了递归视频恢复变换器（RVRT），它以联合和并行的方式从一个剪辑中提取局部相邻帧的特征，并通过累积来自先前剪辑和先前层的信息来细化剪辑特征。通过减少视频序列长度和传输具有更大隐藏状态的信息，RVRT减轻了递归网络中的信息丢失和噪声放大，并使模型部分并行化成为可能。

•我们建议将引导变形注意力（GDA）用于一段视频剪辑到剪辑的对齐。它动态地聚合来自支持剪辑的相关位置的信息。

•在八个基准数据集上进行的大量实验表明，所提出的模型在三个具有挑战性的视频恢复任务中实现了最先进的性能：视频超分辨率、视频去模糊和视频去噪，同时平衡了模型大小、内存使用量和运行时间

2 Related Work
2.1 Video Restoration

recurrent methods.

大多数现有的视频恢复方法可以根据其并行性分类为并行或递归方法。并行方法同时估计所有帧，因为一个帧特征的细化不依赖于其他帧特征的更新。它们可以进一步分为基于滑动窗口的方法[2，25，80，70，72，79，36，63，99，99，27，71，60，35]和基于变换器的方法[4，38]。前一种方法通常仅从相邻帧恢复中心帧，并且通常以滑动窗口方式而不是并行方式进行测试。这些方法通常包括四个阶段：特征提取、特征对齐、特征融合和帧重建。特别是，在特征对准阶段，它们通常将所有帧对准中心帧，这导致视频长度的二次复杂性，并且难以扩展到长序列视频。相反，后一种方法基于转换器架构一次重建所有帧。它们联合提取、对齐和融合所有帧的特征，与以前的方法相比，实现了显著的性能提高。然而，基于 transformer-based 的方法具有巨大的模型大小和巨大的内存消耗。与上述并行方法不同，递归方法[24、59、21、23、85、26、28、9、11、45、55、98、62、44、5]将潜在特征从一帧顺序传播到下一帧，其中先前帧的信息被累积以用于后续帧的恢复。基本上，它们由三个阶段组成：特征提取、特征传播和帧重建。由于特征传播的递归性，递归方法遭受信息丢失和分布式部署的不适用性。

Alignment in video restoration.

与主要关注特征提取的图像恢复不同[16，94–96，42，40，41，67，93，92]，如何对齐多个高度相关但未对齐的帧是视频恢复中的另一个关键问题。传统上，许多方法[43、30、2、48、68、3、87、9]首先估计相邻帧[19、58、65]之间的光流，然后进行图像扭曲以进行对准。其他技术，如可变形卷积[15，100，72，80，11，4]，动态滤波器[29]和相互关注[38]，也被用于隐式特征对齐。

2.2 Vision Transformer

Transformer[77]是自然语言处理中事实上的标准架构。最近，它已被用于通过将像素或图像块视为标记来处理视觉问题[8，18]，在各种计算机视觉任务中实现了显著的性能提高，包括图像分类[18，37，51，74]，对象检测[76，50，84]，语义分割[83，17，66]等。它在修复任务中也取得了令人满意的结果[13、39、81、44、4、38、20、22、7、90、47、73、6]。特别是，对于视频恢复，Cao等人[4]提出了用于视频SR的第一个变换器模型，而Liang等人[38]提出了视频SR、去模糊和去噪的统一框架。

我们注意到，一些基于变压器的作品[101，84]试图将变形的概念[15，100]与注意力机制[77]结合起来。Zhu等人[101]直接预测来自查询特征的注意力权重，而不考虑其与支持位置的特征交互。Xia等人[84]将支持点统一放置在图像上，以利用全局信息。上述两种方法都被提出用于识别任务，例如对象检测，这与视频恢复中的视频对齐有本质区别。Lin等人[44]在光流的引导下，使用像素级或补丁级注意力来聚集来自相邻帧的信息，但它仅对一帧中的一个支持像素或补丁进行采样，限制了模型关注多个遥远的位置。

3 Methodology
3.1 Overall Architecture

给定低质量视频序列ILQ∈RT×H×W×C，其中T、H、W和C分别是视频长度、高度、宽度和信道，视频恢复的目标是重建高质量视频IHQ∈RT×sH×sW×C（其中s是比例因子）。为了实现这一目标，我们提出了一个重复性的3视频恢复转换器，如图1所示。该模型由三部分组成：浅层特征提取、递归特征细化和HQ帧重建。更具体地说，在浅层特征提取中，我们首先使用卷积层从LQ视频中提取特征。对于去模糊和去噪（即，s=1），我们额外添加两个跨步卷积层，以对特征进行降采样，并减少下一层的计算负担。之后，使用几个剩余摆动变压器块（RSTB）[39]来提取浅层特征。然后，我们使用递归特征细化模块进行时间对应建模，并使用引导可变形注意力进行视频对齐，分别在第3.2节和第3.3节中详细介绍。最后，我们添加了几个RSTB以生成最终特征，并通过像素混洗层重建HQ视频IRHQ[61]。

3.2 Recurrent Feature Refinement

上述递归特征细化模块是所提出的RVRT模型的关键组件。在全球范围内，不同视频片段的特征以重复的方式传播。在本地，不同帧的特征被并行地联合更新。对于任意单个帧，它可以充分利用时间累积的全局信息和通过自关注机制一起提取的局部信息。正如我们所看到的，RVRT是递归模型和变换模型的一种推广。当N=1时，它成为一个递归模型，当N=T时，它变成一个变压器模型。这与以前在递归架构中采用变压器块来替换CNN块的方法有根本不同[78，44]。它也不同于自然语言处理中的现有尝试[82，34]

与先前的框架不同，所提出的RVRT需要对齐相邻的相关但未对齐的视频剪辑，如等式（1）所示。在本小节中，我们提出了视频剪辑到剪辑对齐的引导变形注意（GDA）

Multi-group multi-head guided deformable attention. 我们可以将通道划分为多个可变形组，并对不同组并行执行可变形采样。此外，在注意机制中，我们可以进一步将一个可变形组划分为多个注意头，并针对不同的头分别执行注意操作。在频道交互之前，所有组和头部都连接在一起。

Connection to deformable convolution.

可变形卷积[15100]使用学习的权重进行特征聚合，这可以看作是GDA的一种特殊情况，即，对不同位置使用不同的投影矩阵PV，然后直接对得到的特征进行平均。其参数数和计算复杂度分别为M C2和O（M C2）。相比之下，GDA对所有位置使用相同的投影矩阵，但生成动态权重来聚合它们。它的参数数和计算复杂度为（3+2R）C2和O（（3C+2RC+M）C），当选择适当的M和R时，它们类似于可变形卷积。

4 Experiments
4.1 Experimental Setup

对于浅层特征提取和HQ帧重建，我们使用1个RSTB，该RSTB具有2个swin transformer。对于重复性特征细化，我们使用4个剪辑大小为2的细化模块，每个模块具有2个MRSTB和2个修改的swin变换器层。对于RSTB和MRSTB，空间注意窗口大小和头部数量分别为8×8和6。我们使用144个通道进行视频SR，192个通道进行去模糊和去噪。在GDA中，我们使用了12个可变形组和12个具有9个候选位置的可变形头部。我们根据经验将查询投影到更高维度的空间（例如2C），因为我们发现它可以稍微提高性能，并且GDA的参数数量不是瓶颈。在训练中，我们随机裁剪256×256个HQ补丁，并对不同的数据集使用不同的视频长度：REDS[53]为30帧，Vimeo-90K[87]为14帧，DVD[63]、GoPro[54]和DAVIS[31]为16帧。当批大小为8时，使用具有默认设置的优化器[33]来训练模型600000次迭代。学习率被初始化为4×10−4，并使用余弦退火方案降低[52]。为了稳定训练，我们使用预训练的权重初始化SpyNet[58，56]，在前30000次迭代中修复它，并将其学习率降低75%。

4.2 Ablation Study

为了探索不同组件的有效性，我们对视频SR的REDS[53]进行了消融研究。为了提高效率，我们将MRSTB块减少一半，并在训练中使用12帧。

The impact of clip length. 在RVRT中，我们将视频分成N帧剪辑。如表1所示，当clip length从1增加到2时，性能提高。然而，当N=3时，性能饱和，这可能是由于夹内运动大和光流推导不准确。当我们直接估计所有光流（用*标记）时，PSNR达到32.21dB。此外，为了比较时间建模能力，我们通过手动将第50帧的所有像素设置为零来破解输入LQ视频（REDS的剪辑000，共100帧）。如图4所示，一方面，N=2具有较小的性能下降，并且其所有帧在攻击后仍具有比N=1更高的PSNR（相当于递归模型），这表明RVRT可以减轻从黑帧到其余帧的噪声放大。另一方面，N＝2的黑帧对比N＝1更多的相邻帧具有影响，这意味着RVRT可以减轻信息丢失并利用比N＝2更多的帧进行恢复。

The impact of video alignment.

视频剪辑的对齐在我们的框架中起着关键作用。我们通过逐帧执行现有帧对帧对齐技术，然后进行级联和信道缩减，将所提出的剪辑对剪辑引导的可变形注意力（GDA）与现有的帧对帧对准技术进行了比较。从表2可以看出，当GDA用于帧到帧对齐（表示为GDA*）时，它优于所有现有方法，并且当我们直接从整个剪辑中聚合特征时，它会带来进一步的改进。

The impact of different components in GDA.

我们在表3中进一步对GDA进行了消融研究。如我们所见，光流引导对模型至关重要，导致了1.11dB的PSNR增益。不同层中光流的更新可以进一步改善结果。MLP中的通道交互也起着重要作用，因为注意力机制只在空间上聚集信息。

The impact of deformable group and attention head.

我们还对GDA中的不同群体和人数进行了实验。如表4所示，当可变形组上升时，PSNR首先上升，然后几乎保持不变。此外，双重注意力头部会导致稍好的结果，但会以较高的计算为代价，但使用过多的头部会产生不利影响，因为头部尺寸可能太小。

4.3 Video Super-Resolution

对于视频SR，我们考虑两种设置：双三次（BI）和模糊下采样（BD）降级。对于BI退化，我们在两个不同的数据集上训练模型：REDS[53]和Vimeo-90K[87]，然后在相应的测试集REDS4和Vimeo-90K-T上测试模型。我们还测试了Vid4[46]和Vimeo-90K。对于BD降解，我们在Vimeo-90K上对其进行训练，并在Vimea-90K-T、Vid4和UDM10上进行测试[89]。与现有方法的比较如表5所示。正如我们所看到的，RVRT在REDS4和Vid4两种降级上都达到了最佳性能。与代表性的递归模型BasicVSR++[11]相比，RVRT将PSNR提高了0.2～0.5dB的显著裕度。与最近的基于变压器的模型VRT[38]相比，RVR在REDS4和Vid4上的性能优于VRT高达0.36dB。不同方法的视觉比较如图5所示。很明显，RVRT生成清晰的HQ帧，而其他方法无法恢复精细的纹理和细节

我们比较了表6中不同模型的模型大小、测试内存消耗和运行时。与代表性的并行方法EDVR[80]、VSRT[4]和VST[38]相比，RVRT在模型参数和测试内存使用率低于50%的情况下实现了显著的性能提升。它还将运行时间减少至少25%。与递归模型BasicVSR++[11]相比，RVRT带来了0.26dB的PSNR改进。至于测试内存和运行时的劣势，我们认为这主要是因为CNN层在现有深度学习框架上进行了高度优化。为了证明这一点，我们在RVRT中使用基于变压器的RSTB块来替换BasicVSR++中的CNN块，在这种情况下，它比我们的模型具有相似的内存使用量和更多的运行时间。此外，为了更好地理解引导的可变形注意力是如何工作的，我们将LQ帧上的预测偏移可视化，并在图6中显示了注意力权重。如我们所见，预测多个偏移以选择对应像素附近的多个采样位置。根据查询特征和采样特征之间的特征相似度，通过计算动态注意力权重来聚集不同位置的特征。

4.4 Video Deblurring

对于视频去模糊，该模型在两个不同的数据集（DVD[63]和GoPro[54]）上进行了训练和测试，并进行了官方训练/测试。如表7和8所示，RVRT显示了其优于大多数方法，在两个数据集上有1.40～2.27dB的巨大改进。尽管相对于VRT的性能增益相对较小，但RVRT具有更小的模型大小和更少的运行时间。具体而言，RVRT的模型大小和运行时间分别为13.6M和0.3s，而VRT的参数为18.3M，在1280×720 LQ输入下的运行时间为2.2s。由于篇幅限制，补充材料中提供了视觉比较。

4.5 Video Denoising

对于视频去噪，我们在DA VIS[31]的训练集上训练模型，并在其相应的测试集和Set8[70]上对其进行测试。为了比较的公平性，在[70，71]之后，我们训练了噪声水平σ~U（0，50）的非盲加性白高斯去噪模型。与视频去模糊的情况类似，RVRT与大多数方法之间存在巨大差距（0.60～2.37dB）。与VRT相比，RVRT在大噪声水平上的性能稍好，在1280×720 LQ输入上具有更小的模型尺寸（12.8M vs.18.4M）和更少的运行时间（0.2s vs.1.5s）。由于篇幅限制，补充材料中提供了视觉比较。

5 Conclusion

在本文中，我们提出了一种具有引导变形注意力的递归视频恢复变换器。它是一个具有局部并行设计的全局递归模型，受益于并行方法和递归方法的优点。我们还提出了引导变形注意模块，用于视频剪辑到剪辑对齐的特殊情况。在光流的引导下，它利用注意力机制自适应地聚集来自多个相邻位置的信息。在视频超分辨率、视频去模糊和视频去噪方面的大量实验证明了该方法的有效性。

6 Limitations and Societal Impacts

尽管RVRT在视频恢复方面达到了最先进的性能，但它仍有一些局限性。例如，通过光流预对准的复杂性相对于剪辑长度呈二次方增加。一种可能的解决方案是开发直接预测所有光流的视频到视频光流估计模型。至于社会影响，与其他恢复方法类似，RVRT在恢复模糊视频后可能会带来隐私问题，如果用于医疗诊断，可能会导致误判。减轻这种风险的一个可能的解决方案是限制敏感或关键视频模型的使用。