基于深度学习的视频超分辨率研究综述

mytzs123

已于 2023-12-19 10:40:45 修改

阅读量2.4k

点赞数 5

分类专栏：视频超分文章标签：深度学习人工智能神经网络

于 2022-11-23 20:38:26 首次发布

本文链接：https://blog.csdn.net/mytzs123/article/details/127993727

版权

视频超分专栏收录该内容

22 篇文章

订阅专栏

视频超分辨率（VSR）是从低分辨率视频重建高分辨率视频。近年来，基于深度神经网络的VSR方法取得了很大进展。然而，对这些方法很少有系统的综述。在本次调查中，我们全面调查了37种基于深度学习的最新VSR方法。众所周知，视频帧中包含的信息的利用对于视频超分辨率是重要的。因此，我们提出了一种分类法，并根据利用帧间信息的方式将这些方法分为七个子类别。此外，还包括对架构设计和实现细节的描述。最后，我们总结并比较了代表性VSR方法在一些基准数据集上的性能。我们还讨论了VSR社区的研究人员需要进一步解决的应用和一些挑战。据我们所知，这项工作是对VSR任务的第一次系统回顾，预计将对该领域最近研究的发展做出贡献，并可能加深我们对基于深度学习的VSR技术的理解。

1 Introduction

超分辨率（SR）旨在从对应的低分辨率（LR）图像中恢复高分辨率（HR）图像或多个图像。这是计算机视觉和图像处理中的一个经典且具有挑战性的问题，它具有广泛的现实世界应用，例如医学图像重建（Peng等人，2020）、遥感（Luo等人，2017）和全景视频超分辨率（Fakour Sevom等人，2018，Liu等人，2020b）、监控系统（Deshmukh和Rani，2019）、，以及高清电视（Patti等人，1997年）。随着第五代移动通信技术的出现，大型图像或视频可以在更短的时间内传输。同时，随着高清（HD）和超高清（UHD）显示设备的普及，视频超分辨率正受到更多关注。

视频是我们日常生活中最常见的多媒体之一，因此低分辨率视频的超分辨率变得非常重要。通常，图像超分辨率方法一次处理单个图像，而视频超分辨率算法一次处理多个连续图像/帧，以便利用帧内的关系来超分辨率目标帧。在广义上，视频超分辨率（VSR）可以被视为图像超分辨率的扩展，并且可以由图像超分辨率算法逐帧处理。然而，SR性能并不总是令人满意的，因为可能会带来伪影和干扰，这会导致帧内不必要的时间不相干

近年来，已经提出了许多视频超分辨率算法。它们主要分为两类：传统方法和基于深度学习的方法。对于一些传统方法，运动仅通过仿射模型进行估计，如（Schultz和Stevenson，1996）所示。在（Protter等人，2009年，Takeda等人，2009）中，他们分别采用非局部均值和3D导向核回归进行视频超分辨率。Liu和Sun（2014年）提出了一种贝叶斯方法，以同时估计潜在的用于重建高分辨率帧的运动、模糊核和噪声水平。在（Ma等人，2015）中，采用期望最大化（EM）方法来估计模糊核，并指导高分辨率帧的重建。然而，这些高分辨率视频的显式模型仍然不足以适应视频中的各种场景。

随着深度学习在各个领域的巨大成功（Zhang等人，2021），基于深度学习的超分辨率算法得到了广泛的研究。许多基于深度神经网络的视频超分辨率方法已经被提出，如卷积神经网络（CNN）、生成对抗网络（GAN）和递归神经网络（RNN）。通常，他们使用大量LR和HR视频序列来输入神经网络进行帧间对齐、特征提取/融合，然后为相应的低分辨率视频序列生成高分辨率序列。大多数视频超分辨率方法的流水线主要包括一个对齐模块、一个特征提取和融合模块以及一个重建模块，如图1所示。由于深度神经网络的非线性学习能力，基于深度学习的方法通常在许多公共基准数据集上获得良好的性能。

到目前为止，关于视频超分辨率任务概述的著作很少，尽管已经发表了许多关于单图像超分辨率研究的著作（Wang等人，2021b，Singh和Singh，2020，Yang等人，2019）。Daithankar和Ruikar（2020）简要回顾了许多频率-空间域方法，而深度学习方法很少被提及。与之前的工作不同，我们对近年来用于视频超分辨率的深度学习技术进行了全面的研究。众所周知，视频超分辨率和图像超分辨率之间的主要区别在于帧间信息的处理。如何有效利用来自相邻帧的信息对于VSR任务至关重要。我们专注于将帧间信息用于各种基于深度学习的方法的方法。

这项工作的贡献主要总结如下。1）我们回顾了基于深度学习的视频超分辨率开发技术的最新工作和进展。据我们所知，这是关于基于深度学习的VSR方法的第一次全面调查。2）我们通过对基于深度学习的视频超分辨率方法利用帧间信息的方式进行分类，提出了一种分类法，并说明了该分类法如何用于对现有方法进行分类。3）我们总结了一些公共基准数据集上最先进的方法的性能，并列出了VSR算法在各个领域的应用。4）我们进一步讨论了视频超分辨率任务的一些挑战和前景。

本文的其余部分组织如下。在第二节中，我们简要介绍了视频超分辨率的背景。第三节显示了我们对最近作品的分类。在第四节和第五节中，我们根据分类法分别描述了有对齐和无对齐的视频超分辨率方法。第六节定量分析了最先进方法的性能。在第七节中，我们讨论了视频超分辨率的挑战和未来趋势。最后，我们在第八节中总结了这项工作。

2 Background

......

3 Video Super-resolution Methods

由于视频是运动视觉图像和声音的记录，因此视频超分辨率的方法借鉴了现有的单图像超分辨率方法。有许多基于深度学习的图像超分辨率方法，例如使用深度卷积神经网络的超分辨率（SRCNN）（Dong等人，2014）、快速超分辨率卷积神经网络（FSRCN）（Don等人，2016）、VDSR（Kim等人，2016年）、高效亚像素卷积神经网络，剩余渠道注意力网络（RCAN）（Zhang等人，2018b）、“零射击”超级分辨率（ZSSR）（Shocher等人，2018）和使用生成对抗网络的超级分辨率（SRGAN）（Ledig等人，2017）。2016年，基于SRCNN，Kappeler（Kappeler等人，2016）提出了一种使用卷积神经网络（VSRnet）的视频超分辨率方法。到目前为止，已经提出了许多视频超分辨率算法。在下文中，我们总结了近年来基于深度学习的视频超分辨率方法的特点，如表1所示

最近几项关于视频超分辨率任务的研究（Wang等人，2019a，Jo等人，2018，Tian等人，2020）表明，帧中包含的信息的利用极大地影响了性能。正确和充分地使用这些信息可以增强视频超分辨率的结果。因此，我们根据现有视频超分辨率方法利用帧间信息的方式，为其建立了一个分类，如图2所示。

如图2和表1所示，根据视频帧是否明确对齐，我们将现有方法分为两大类：有对齐的方法和无对齐的方法。我们将在以下章节中详细介绍这些方法。

由于所有方法都是根据帧是否明确对齐以及它们主要用于对齐的技术来分类的，因此忽略了它们用于特征提取、融合和重建的其他模块。这些模块可以由多种方法同时使用。因此，我们研究中的一些方法是耦合的。MEMC方法中的BasicVSR采用了典型的双向递归卷积神经网络（RCNN）作为骨干。而基于 RCNN 的方法（例如 BRCN、STCN 和 RISTN）属于无对齐方法，主要使用 RCNN 来学习特征。同样，VESR-Net 在 DC 类别也使用非本地块作为特征在非本地类别中像 PFNL 一样学习。此外，DSMC 在 3D 卷积类别中还利用非局部块进行全局关联计算。

“其他”类别包括采用光流但没有帧对齐的方法，例如RBPN和STARnet。最后，通过可变形卷积学习的偏移与基于光流的方法具有相似的模式，并且可变形和基于流的对齐是强相关的。这在工作中得到了说明（Chan等人，2021c）

此外，我们在这些最近提出的方法中观察到了几个趋势。

1）方法的多样化。在早期（2015-2017），大多数方法使用帧对齐进行VSR。然后，自2018年以来，出现了许多不同的方法，特别是没有对齐的方法，例如FFCVSR、DUF、RISTN和PLNL。一些研究还表明，有对齐和无对齐的方法都可以获得良好的性能。

2）方法中接受野的扩大。早期的方法如EDVR和RBPN主要利用滑动窗口中的一定数量的输入帧，而随后的方法则采用更长的序列。例如BasicVSR采用双向RCNN，此外，非本地子网络（如PFNL方法）旨在计算帧内和帧间所有可能像素之间的相关性。这些表明，这些方法倾向于捕获视频序列中的长距离依赖性，并且它们将网络中的接受域从局部扩展到全局。

3）在诸如FRVSR、STTN、SOFVSR、TecoGAN和MuCAN等MEMC方法中，大多数方法采用深度学习技术来估计光流，因为深度学习可能比传统方法具有对各种数据的自适应能力。

4）方法的实用性。随着对高质量视频的超分辨率要求的发展，最近提出的方法也变得更加实用。测试视频从Vid4和UVGD发展到REDS。所有讨论表明，我们将主要关注具有更复杂运动和场景变化的视频的方法。

4 Methods with Alignment

具有对齐的方法通过在后续重建之前使用提取的运动信息使相邻帧显式地与目标帧对齐。这些方法主要使用运动估计和运动补偿（MEMC）或可变形卷积，这是用于对齐帧的两种常见技术。接下来我们将介绍基于每种技术的最先进方法。

4.1 Motion Estimation and Compensation Methods

在用于视频超分辨率的对准方法中，大多数应用了运动估计和运动补偿技术。具体地，运动估计的目的是提取帧间运动信息，而运动补偿用于根据帧间运动信号在帧之间执行扭曲操作，并使一帧与另一帧对齐。大多数运动估计技术是通过光流法进行的（Dosovitskiy等人，2015）。该方法试图通过两个相邻帧在时域中的相关性和变化来计算它们之间的运动。运动估计方法可分为两类：传统方法（例如，（Lucas和Kanade，1981）和（Drulea和Nedevschi，2011））和深度学习方法，如FlowNet（Dosovitskiy等人，2015）、FlowNet 2.0（Ilg等人，2017）和SpyNet（Ranjan和Black，2017）。

......

ME和MC过程都可以通过深度学习方法或传统方法（非深度学习）进行。根据应用于ME或MC的技术是传统的或深度学习，我们进一步将MEMC方法分为两个子类别。如果ME或MC中的任何过程使用深度神经网络，则该方法属于深度学习范畴，否则该方法属于传统方法。MEMC方法中的方法包括以下三种：Deep DE（Liao等人，2015）、VSRNet（Kappeler等人，2016）和RRCN（Li人，2019）。其他MEMC方法包括在深度学习子类别中。下面我们详细描述了一些有代表性的方法。

4.1.1 Deep-DE

4.1.2 VSRnet

VSRnet2（Kappeler等人，2016）基于图像超分辨率方法SRCNN（Dong等人，2014），其网络架构如图所示。

VSRnet主要由运动估计和补偿模块以及三个卷积层组成，除最后一个卷积层外，每个卷积层后面都有一个校正的线性单元（ReLU）。VSRnet和SRCNN之间的主要区别是输入帧的数量。也就是说，SRCNN使用单个帧作为输入，而VSRnet使用多个连续帧，这是补偿帧。通过Druleas算法计算帧之间的运动信息（Drulea和Nedevschi，2011）。此外，VSRnet提出了滤波器对称性强制（FSE）机制和自适应运动补偿机制，它们分别用于加速训练和减少不可靠补偿帧的影响，从而可以提高视频超分辨率性能。

4.1.3 RRCN

如图6所示，残差递归卷积网络（RRCN）（Li等人，2019）是一个双向递归神经网络，它学习残差图像。RRCN提出了一种非同步的全递归卷积网络，其中非同步指的是多个连续视频帧的输入，并且只有中间的一个是超分辨率的。RRCN使用组合局部全局与总变量（GLG-TV）方法（Drulea和Nedevschi，2011）以对目标帧及其相邻帧执行运动估计和补偿。补偿帧被用作网络的输入。分别在前向网络和后向网络中进行前向卷积和递归卷积，并对它们的输出进行求和。最后，通过将目标帧添加到输入来获得结果。为了进一步提高性能，RRCN还使用了自集成策略，并将其与单图像超分辨率方法EDSR+的输出相结合（Lim等人，2017），以分别获得两个名为RRCN+和RRCN++的模型

4.1.4 VESPCN

视频高效子像素卷积网络（VESPCN）（Caballero等人，2017）提出了用于运动估计和补偿的空间运动补偿变换器（MCT）模块。然后将补偿后的帧馈送到一系列卷积层中进行特征提取和融合，如图7所示。最后，通过亚像素卷积层进行上采样获得超分辨率结果。MCT模块采用CNN提取运动信息并进行运动补偿。MCT使用从粗到细的方法来计算图像序列的光流。首先，在粗略估计阶段，网络将两个连续帧（即，目标帧和相邻帧）作为输入。粗网络由5个卷积层和一个子像素卷积层组成。它首先执行两次×2下采样操作，然后通过子像素卷积层执行×4上采样操作光流估计结果。其次，根据光流对相邻帧进行翘曲。在精细估计阶段，目标帧、相邻帧、在粗略阶段计算的光流和扭曲的相邻帧是精细网络的输入，其架构与粗略网络相似。它首先进行×2下采样，然后在网络末端进行×2上采样，以获得精细的光流。与粗光流一起，使用细光流来获得最终的估计结果。最后，相邻帧被最终的光流再次扭曲，以使扭曲的帧与目标帧对齐。

4.1.5 DRVSR

细节揭示深度视频超分辨率（DRVSR）（Tao等人，2017）方法提出了一种亚像素运动补偿层（SPMC），其可以根据估计的光流信息同时对相邻输入帧执行上采样和运动补偿操作。DRVSR的网络架构如图8所示。

DRVSR由三个主要模块组成：运动估计模块、使用SPMC层的运动补偿模块和融合模块。运动估计模块由运动补偿变压器（MCT）网络实现（Caballero等人，2017）。SPMC层由两个子模块组成，即网格生成器和采样器。网格生成器首先根据光流将LR空间中的坐标转换为HR空间中的座标，然后采样器在HR空间中执行插值操作。在融合模块中，它应用步幅2的卷积进行下采样，然后进行反褶积进行上采样，以获得目标帧的HR残差图像。该残差图像与上采样的LR目标帧一起产生最终结果。DRVSR还采用ConvLSTM模块（Shi等人，2015）来处理时空信息。

4.1.6 RVSR

鲁棒视频超分辨率（RVSR）（Liu等人，2017）提出了一种空间对齐模块，以获得良好的对齐性能，并提出了一个时间自适应模块，以自适应地确定时间相关性的最佳尺度。其架构如图9所示。

空间对准模块负责多帧的对准，使得相邻帧与目标帧对准。它首先通过定位网估计相邻帧和目标帧之间的变换参数，然后基于获得的参数通过空间变换层使相邻帧与目标帧对齐（Jaderberg等人，2015）。定位网络由两个卷积层和两个完全连接的层组成，每个卷积层之后是最大池化层。时间自适应模块由SR子网络的多个分支和时间调制组成。每个子网络负责处理时间尺度（即，输入帧的数量），并输出相应的超分辨率结果。然后通过时间调制为每个子网络的超分辨率结果分配权重。最终超分辨率结果是每个分支的超分辨率结果及其权重的权重和。时间调制模块的输入帧数与超分辨率网络中的最大输入帧数相同，时间调制模块和超分辨率网络的网络结构相同，两者都基于ESPCN的结构（Shi等人，2016）。

4.1.7 FRVSR

帧递归视频超分辨率（FRVSR）4（Sajjadi等人，2018）主要提出使用先前推断的HR估计来超分辨率后续帧，以产生时间一致的结果并降低计算成本。FRVSR的架构如图10所示。详细实现采用光学估计网络来计算从前一帧到目标帧的光流。然后通过双线性插值将LR光流上采样到与HR视频相同的大小。前一帧的HR变体被上采样的LR光流扭曲，然后通过空间到深度变换对扭曲的HR帧进行下采样以获得LR版本。最后，将扭曲的HR帧和目标帧的LR变体馈送到后续的超分辨率网络中，以获得目标帧的结果。在FRVSR中，光流网络由14个卷积层、3个池化层和3个双线性上采样层组成。除最后一个卷积层外，每个卷积层后面都有LeakyReLU激活函数。超分辨率网络由2个卷积层、2个带×2的去卷积层和10个残差块组成，其中每个残差块由2个回旋层和ReLU激活函数组成。

4.1.8 STTN

时空变换器网络（STTN）（Kim等人，2018a）提出了一种时空变换器模块，用于解决先前的光流方法仅处理一对视频帧的问题，当视频中存在遮挡和亮度变化时，这可能导致不准确的估计。所提出的模块可以一次处理多个帧。STTN的架构如图11所示。

STTN由三个主要模块组成：时空流估计模块、时空采样器模块和超分辨率模块。第一个模块是U型网络，类似于U-Net（Ronneberger等人，2015），由12个卷积层和两个上采样层组成。它首先执行×4下采样，然后执行×4上采样以恢复输入帧的大小。该模块负责连续输入帧（包括目标帧和多个相邻帧）的光流估计，最终输出是表示帧之间的空间和时间变化的3通道时空流。时空采样器模块实际上是一种三线性插值方法，它负责对当前多个相邻帧执行扭曲操作，并根据时空流模块获得的时空流获得对齐的视频帧。对于视频超分辨率，对准的帧然后可以被馈送到超分辨率（SR）模块中，用于目标帧的特征融合和超分辨率。

4.1.9 SOFVSR

视频超分辨率任务的超分辨率光流（SOFVSR）5（Wang等人，2019）被提出用于超分辨率LR估计光流，以获得出色的SR性能，其架构如图12所示。帧之间的光流通过包括光流重建网络（OFRnet）在内的从粗到细的方法来估计，最终产生高分辨率光流。然后通过空间到深度转换将HR光流转换为LR光流。相邻帧被LR光流扭曲，以使相邻帧与目标帧对齐。然后，超分辨率网络（SRnet）将目标帧和扭曲帧作为输入，以获得最终的超分辨率结果。SRnet由两个卷积层、五个剩余密集块和一个子像素卷积层组成。

4.1.10 TOFlow

面向任务的流（TOFlow）6（Xue等人，2019）的架构如图13所示。TOFlow将用于光流估计的网络与重建网络相结合，并对它们进行联合训练，以获得适合特定任务的光流网络，如视频SR、视频插值和视频去模糊.TOFlow采用SpyNet（Ranjan和Black，2017）作为光流估计的网络，然后采用空间变换网络（STN）根据计算出的光流扭曲相邻帧。然后通过图像处理网络获得最终结果。对于视频超分辨率任务，图像处理模块由4个卷积层组成，其中内核大小分别为9×9、9×9，1×1和1×1，通道数分别为64、64、64和3。

4.1.11 MMCNN

多记忆卷积神经网络（MMCNN）（Wang等人，2019b）的架构如图14所示。它由5个主要模块组成：用于运动估计和运动补偿的光流模块、特征提取、多记忆细节融合、特征重建和上采样模块，其中最后一个模块使用亚像素卷积层。连续的输入帧首先由光流估计模块处理，以使相邻帧与目标帧对齐。最后，将该残差图像添加到通过双三次插值计算的上采样LR目标帧中，以获得超分辨率结果。在多记忆细节融合模块中，MMCNN采用ConvLSTM模块（Shi等人，2015）来合并时空信息。此外，特征提取、细节融合和特征重建模块都是基于残余密集块构建的（Zhang et al，2018，Huang et al，2017），其中关键区别仅在于网络层的类型。

4.1.12 MEMC-Net

如图15所示，运动估计和运动补偿网络（MEMC Net）（Bao等人，2021）主要提出了自适应翘曲层。自适应扭曲层通过分别由运动估计网络和核估计网络产生的估计光流和卷积核来扭曲相邻帧，并将相邻帧与目标帧对齐。运动估计网络采用FlowNet（Dosovitskiy等人，2015年），内核估计网络使用改进的U-Net（Ronneberger等人，2015），包括五个最大池化层、五个非池化层和从编码器到解码器的跳过连接。在MEMC Net中，超分辨率模块（即帧增强模块）的架构与EDSR的架构相似（Lim等人，2017）。为了处理遮挡问题，它采用预训练的ResNet18（He等人，2016）来提取输入帧的特征。此外，它将ResNet18的第一卷积层的输出作为上下文信息馈送到自适应扭曲层以执行相同的操作。

4.1.13 RTVSR

如图16所示，实时视频超分辨率（RTVSR）（Bare等人，2019）采用了称为运动卷积核估计网络的卷积网络，这是一种全卷积编解码器结构，以估计目标帧与相邻帧之间的运动，并产生与当前目标帧和相邻帧相对应的一对1D卷积核。然后，通过使用估计的卷积核来扭曲相邻帧，使其与目标对准。RTVSR设计了一个称为门控增强单元（GEU）的重要组件，以学习有用的特征，这是基于（Li等人，2018）的改进变体。

4.1.14 MultiBoot VSR

视频超分辨率多级多参考自举（MultiBoot VSR）（Kalarot和Porikli，2019）由两个阶段组成。即，为了进一步提高性能，第一级的输出被用作第二级的输入。MultiBoot VSR的网络架构如图17所示。LR帧被输入到FlowNet 2.0以计算光流并执行运动补偿。然后，处理后的帧被馈送到第一级网络以获得目标帧的超分辨率结果。在MultiBoot VSR的第二阶段中，前一阶段的输出被下采样，与初始LR帧级联，然后输入到网络以获得目标帧的最终超分辨率结果。

4.1.15 MuCAN

多对应聚合网络（MuCAN）（Li等人，2020）的架构如图18所示。MuCAN是一个端到端网络，由一个时间多对应聚合模块（TM-CAM）、一个跨尺度非本地对应聚合模块和一个重构模块组成。在TM-CAM中，两个相邻的LR帧首先被编码成较低分辨率的特征，以对噪声更稳定和鲁棒。然后，聚合单元（AU）在原始LR特征空间中开始聚合，以补偿大的运动，同时逐渐向上移动到低级别/高级别用于细微的子像素移位。在单个AU中，使用基于补丁的匹配策略，因为它自然包含结构信息。然后聚合多个候选以获得足够的上下文信息。然后将聚集的信息传递给CN-CAM，然后CN-CAM使用基于AvgPool的金字塔结构来执行时空非局部关注和从粗到细的空间关注。最后，将结果汇总并发送到重建模块，以生成最终的HR结果

4.1.16 TecoGAN

时间相干GAN（TecoGAN）9（Chu等人，2020）主要提出了一种用于真实和相干视频超分辨率的时空鉴别器，以及一种新的“乒乓”损失，以解决反复出现的伪影。与GAN一样，TecoGAN也包括一个发生器和一个鉴别器，其架构如图19所示。生成器将目标帧、先前帧和先前估计的HR帧作为输入。首先，输入帧被馈送到光流模块中，光流模块是类似于FRVSR中光流估计模块的CNN（Sajjadi等人，2018）。在该模块中，通过双三次插值估计并放大目标帧和相邻帧之间的LR光流，以获得相应的HR光流。然后，先前的HR帧被HR光流扭曲。扭曲的先前HR帧和目标帧被馈送到后续卷积模块中，所述后续卷积模块包括两个卷积层、一个残差块和两个具有去卷积层的上采样模块，以产生恢复的目标帧。此外，鉴别器评估超分辨率结果的质量。鉴别器将生成的结果和GT作为输入，其中每个结果和GT具有三个分量，即三个连续的HR帧、三个相应的上采样LR帧和三个扭曲的HR帧。使用这种输入格式，可以消除最终结果中的空间过度平滑和时间不一致。TecoGAN还提出了“乒乓球”损失函数减少长期时间细节漂移并使超分辨率结果更自然的功能。

4.1.17 BasicVSR

作者提出了一种视频超分辨率通用框架，称为BasicVSR，如图20所示。它是一个典型的双向递归网络，主要由三个模块组成：反向（B）模块、正向（F）模块和上采样（U）模块。B模块接收下一个B模块、当前帧和下一帧的输出，而F模块接收前一个F模块、当前框和前一帧的输入。然后，两个模块的输出通过U模块融合，产生超分辨电流帧。这些过程迭代，直到所有帧都被超级解析。B/F模块由通用组件组成：运动估计、空间扭曲和残差块。作者进一步提出了两种处理机制：信息再填充和耦合传播，这两种机制由IconVSR算法组成。前者解决了未对准导致的性能下降，后者解决了BasicVSR中前向处理和后向处理之间缺乏信息交互的问题。在信息重新填充机制中，如果当前处理的帧在所选关键帧集中，则将进行融合；否则，对齐的结果将直接发送到残差块中而不进行融合。该机制减轻了由未对准引起的误差累积，从而避免了性能下降。在耦合传播机制中，反向传播的输出直接用作正向传播的输入，从而实现它们之间的信息交互。

In summary

MEMC技术用于将相邻帧与目标帧对齐，并且可能是解决视频超分辨率任务的最常见方法。然而，问题是，当照明发生显著变化或视频中存在较大运动时，它们不能保证运动估计的准确性。在这些情况下，视频超分辨率的性能会大大降低。当处理复杂运动（不仅仅是大运动）和变化的照明时，基于光流方法的运动估计计算可能会打破亮度一致性、小运动和空间相干性的假设。然后，光流的估计变得不准确，并且出现误差，这容易导致伪影和模糊。为了解决这一问题，提出了具有对齐的方法（例如，作为深度网络中的一个模块来对齐帧的可变形卷积）和无对齐的方法。

4.2 Deformable Convolution Methods

Dai等人（2017）首次提出了可变形卷积网络，2019年提出了改进的变体（Zhu等人，2019）。在普通的神经网络中，惯例是在层中使用固定的几何结构，这限制了网络对几何变换建模的能力。相反，可变形卷积能够克服这一限制。用于特征对齐的可变形卷积的图示如图21所示。与相邻特征图串联的目标特征图被投影以通过附加卷积层获得偏移。将偏移应用于常规卷积核以产生可变形卷积核，然后将其与输入特征图卷积以产生输出特征图。采用可变形卷积的方法主要包括增强的可变形视频恢复（EDVR）（Wang et al，2019a）、可变形非局部网络（DNLN）（Wang等人，2019）和时间可变形对齐网络（TDAN）（Tian等人，2020），其详细描述如下。

4.2.1 EDVR

如图22所示，增强型可变形视频恢复（EDVR）10（Wang等人，2019a）是NTIRE19挑战赛的冠军模型（Nah等人，2019a、2019b）。EDVR提出了两个关键模块：金字塔、级联和可变形（PCD）对齐模块（如Ranjan和Black，2017，Sun等，2018，Hui等，2018和2021）和时空注意（TSA）融合模块，分别用于解决视频中的大运动和有效融合多帧。EDVR主要由四个部分组成：一个PCD对准模块、TSA融合模块、重建模块和使用亚像素卷积层的上采样模块。首先，PCD对准模块对准输入帧，然后TSA融合模块融合对准的帧。然后，融合结果被馈送到重建模块以细化特征，然后通过上采样，获得称为残差图像的HR图像。通过将残差图像添加到直接上采样目标帧来获得最终结果。为了进一步提高性能，EDVR还采用了两阶段方法，其第二阶段与第一阶段相似，但网络深度较浅。

4.2.2 DNLN

如图23所示，可变形非局域网络（DNLN）（Wang等人，2019）基于可变形卷积（Dai等人，2017，Zhu等人，2019年）和非局域网络设计了对齐模块和非局域注意力模块（Wang等人2018年），对齐模块在原始可变形卷积中使用层次特征融合模块（HFFB）（Hui等人，2021）来生成卷积参数。此外，DNLN在级联11码中使用多个可变形卷积，这使得帧间对准更加准确。

4.2.3 TDAN

如图24所示，时间可变形对齐网络（TDAN）（Tian等人，2020）将可变形卷积应用于目标帧和相邻帧，并获得相应的偏移。然后，根据偏移量将相邻帧扭曲以与目标帧对齐。TDAN分为三个部分，即特征提取模块、可变形卷积模块和重构模块。

4.2.4 D3Dnet

可变形3D卷积网络（D3Dnet）13（Ying等人，2020）的架构如图25所示。D3Dnet提出了3D可变形卷积，以实现强大的时空特征建模能力。输入首先被馈送到3D卷积层以生成特征，然后将其馈送到5个残余可变形3D卷积（ResD3D）块以实现运动补偿并捕获空间信息。

4.2.5 VESR-Net

如图26所示，视频增强和超分辨率网络（VESR-Net）的架构（Chen等人，2020）是优酷视频增强和超级分辨率挑战中的冠军模型。VESR-Net主要由特征编码器、融合模块和重构模块组成。LR帧首先由由卷积层和多个堆叠的信道关注残差块（CARB）组成的特征编码器处理（Zhang等人，2018b）。然后在融合模块中，PCD卷积（Wang等人，2019a）执行帧间特征对齐。独立的非本地子模块（separate NL）在空间、信道和时间维度上划分特征图，并对其进行处理，以分别获得相关信息。与普通的非本地（Wang等人，2018）架构不同，独立的NL可以以较少的参数和较浅的网络在视频帧和每个帧中的像素之间融合信息。最后，VESR Net利用CARB和特征解码器在重建模块中进行上采样，其中上采样模块由亚像素卷积层实现。并通过与双三次插值LR目标帧相加来输出超分辨率帧。

The evolution of methods with alignment.

在对准方法中，运动估计和运动补偿技术作为计算机视觉中的经典研究课题，早在几年就被应用于视频超分辨率。MEMC具有广泛的应用，例如视频编码和增强隔行扫描。随着基于深度学习的VSR的出现，许多作品使用MEMC来捕获视频帧中包含的运动信息。MEMC的早期工作是Deep DE（Liao等人，2015），最近提出的一些方法，如VESPCN（Caballero等人，2017）、SOFVSR（Wang等人，2019）、TOFlow（Xue等人，2019年）和FRVSR（Sajjadi等人，2018）也采用了MEMC技术。具体而言，早期视频超分辨率算法采用传统的MEMC方法，如VSRnet中的Druleas（Kappeler等人，2016），而后续算法如VESPCN（Caballero等人，2017）、TOFlow（Xue等人，2019）和FRVSR（Sajjadi等人，2018）主要为MEMC设计子模块或子网络。

然而，大多数MEMC方法的准确性通常无法保证。当亮度变化或视频包含帧间的大运动时，VSR的性能会急剧下降。因此，对变化的光照和运动条件不敏感的可变形卷积（DConv）引起了研究人员的更多关注。DConv对每个采样点com应用可学习的偏移量与传统卷积相比。因此，DConv不仅可以扩大卷积核的感受野，而且可以丰富感受野的形状。当处理变化的光照和运动条件时，具有固定内核和有限感受野的传统卷积可能无法捕捉变化的条件。而DConv为内核使用了一个可学习的参数来分析照明和运动特征，这可以更好地捕捉复杂的运动和照明变化。Dai等人（2017）提出了可变形卷积，以增强神经网络对物体几何变化的变换建模能力。在VSR方法中，TDAN（Tian等人，2020）首先利用它来执行帧间对准。之后，DNLN（Wang et al，2019）、EDVR（Wang et al.，2019a）和D3Dnet（Ying et al，2020）进一步促进其用于帧对齐。然而，可变形卷积仍有一些缺点，包括计算复杂度高和收敛条件苛刻。因此，该技术在未来仍有改进的空间。

此外，当视频中出现剧烈的光照变化和大的运动时，基于MEMC的方法的性能将大大降低。然而，网络架构是影响其性能的重要因素之一。其他因素包括训练数据集、训练策略、数据预处理、超参数设置、迭代时间等。尽管基于MEMC的方法在处理包含光照变化和大运动的视频时有局限性，但它们可以被其他网络设计和训练设置抵消。例如，BasicVSR/IconVSR采用双向递归网络作为主干，充分利用视频序列中的全局信息，扩展了接收野。因此，与主要使用卷积的其他MEMC方法相比，它们可以获得更好的性能。此外，使用余弦退火方案的训练过程（Loshchilov和Hutter，2017）可能更加精细。

5 Methods without Alignment

与有对齐的方法相比，无对齐的方法不对齐视频超分辨率的相邻帧。这类方法主要利用空间或时空信息进行特征提取。根据用于初始特征提取的主要技术，我们将其进一步分类为五种类型：2D卷积方法（2D卷积）、3D卷积方法（3D卷积）、递归卷积神经网络（RCNN）、基于非局部网络的方法和其他方法。其中，第一类属于空间方法，而接下来的三种是时空方法，其特征是利用输入视频中的空间和时间信息。其他方法包括不属于任何前者的方法。我们详细介绍它们如下。

5.1 2D Convolution Methods

代替诸如帧之间的运动估计和运动补偿之类的对准操作，将输入帧直接馈送到2D卷积网络中，以在空间上执行特征提取、融合和超分辨率操作。这可能是解决视频超分辨率问题的简单方法，因为它使网络自己学习帧内的相关信息。代表性方法是VSRResFeatGAN（Lucas等人，2019）和FFCVSR（Yan等人，2019年）

5.1.1 VSRResFeatGAN

VSRResFeatGAN（Lucas等人，2019）利用GAN解决VSR任务，并通过对抗性训练找到良好的解决方案。图27所示的生成器由卷积层和残差块组成。每个残差块由两个卷积层组成，然后是ReLU激活函数。此外，鉴别器由三组卷积和全连接层组成，其中每组包括卷积层、批归一化（BN）和LeakyReLU。鉴别器确定生成器的输出是生成的图像还是GT图像。然后，鉴别器的结果对生成器作出反应，并促使其产生更接近GT图像的结果。最后，通过迭代优化得到了相对满意的解。

5.1.2 FFCVSR

帧和特征上下文视频超分辨率（FFCVSR）14（Yan等人，2019）的架构如图28所示。与常见的MEMC技术不同，FFCVSR由多个本地网络和上下文网络组成，并以不同的方式利用帧间信息。LR未对齐的视频帧和前一帧的HR输出直接作为网络的输入，以恢复高频细节并保持时间一致性。

In summary

上述两种方法都利用VSR任务的帧之间的空间相关性。VSRResFeatureGAN利用GAN的对抗性训练来找到合适的解决方案。由于GAN中的鉴别器必须猜测生成的帧是否接近地面真相，因此与其他方法（例如FFCVSR）相比，PSNR和SSIM方面的VSR结果并不总是令人满意的。

5.2 3D Convolution Methods

与2D卷积相比，3D卷积模块（Tran等人，2015，Ji等人，2013）在时空域上运行，2D卷积仅通过输入帧上的滑动核来利用空间信息。这有利于视频序列的处理，因为通过提取时间信息来考虑帧之间的相关性。VSR的代表性3D卷积方法有DUF（Jo等人，2018）、FSTRN（Li等人，2019a）和3DSRnet（Kim等人，2019）

5.2.1 DUF

已经提出了动态上采样滤波器（DUF）15（Jo等人，2018），如图29所示。它受到动态滤波器网络（Jia等人，2016）的启发，该网络可以为特定输入生成相应的滤波器，然后应用它们来生成相应的特征图。

动态上采样滤波器的结构以及通过3D卷积学习的时空信息可以避免使用运动估计和运动补偿。UF 不仅执行过滤，还执行上采样操作。为了增强高频细节超分辨率结果，DUF使用网络估计目标帧的匹配残差图。最后的结果是由动态上采样模块处理的帧学习过滤器得到的残差图和LR目标和。

5.2.2 FSTRN

快速时空残差网络（FSTRN）（Li et al，2019a）使用因子化3D卷积来提取连续帧中包含的信息，如图30所示。在FSTRN中，k×k×k 3D卷积核被分解为2个级联核，其大小分别为1×k×k和k×1×1，以减少直接使用3D卷积导致的计算。

FSTRN由以下四个部分组成：LR视频浅层特征提取网络（LFENet）、快速时空残差块（FRB）、LR特征融合和上采样SR网络（LSRNet）和全局残差学习（GRL）模块。GRL主要由两部分组成：LR空间残差学习（LRL）和跨空间残差学习。LRL与FRB一起引入。CRL将LR视频直接映射到HR空间。CRL和LRL的设计可以沟通LR和HR空间。此外，FSTRN在LRL之后采用了丢弃层，以增强网络的泛化能力。LFENet使用3D卷积来提取连续LR输入帧的特征。FRB，包括分解的3D卷积层，负责提取包含在输入帧中的时空信息。LSRNet用于融合来自先前层的信息并进行上采样。

5.2.3 3DSRNet

3D超分辨率网络（3DSRNet）16（Kim等人，2019）使用3D卷积来提取VSR任务的连续帧中包含的时空信息。网络架构如图31所示。3DSRNet的子网可以预处理场景变化，如图所示。当五个不同场景的帧被卷入卷积时，子网通过场景边界检测模块对场景边界的准确位置进行分类，并将不同的场景帧替换为与当前中间帧在时间上最接近的同一场景帧。最后，将更新的五个帧发送给后续的视频超分辨率子网络。这种方法在一定程度上克服了场景变化导致的性能下降。

5.2.4 DSMC

提出了一种具有双子网和多级通信上采样（DSMC）17的深度神经网络（Liu等人，2021a），用于大运动视频的超分辨率。结构如图32所示。它设计了一个带有3D卷积的U形剩余密集网络（U3D-RDN），用于精细隐式MEMC以及粗略的空间特征提取。此外，DSMC提出了一种新的多级通信上采样（MSCU）模块，以充分利用上采样的中间结果来指导VSR。此外，还设计了一个子网来辅助DSMC的训练，其双重损失有助于减少解空间和增强泛化能力。DSMC首先对输入的连续帧进行可变形卷积，以进行粗特征提取。然后，输出特征图由可变形残差网络（DResNet）处理（Lei和Todorovic，2018），以提取精细的空间信息。接下来，将特征图输入到U3D-RDN，用于时空特征的降维和相关性分析。接着是另一个DRes-Net module 特征图被发送到MSCU模块。最后，在用于训练的双子网的帮助下，DSMC生成超分辨率HR帧。值得注意的是，只有双子网的输出和VSR子网的结果用于DSMC的损失计算。

简言之这些3D卷积方法可以提取包含在连续帧中的时空相关性，而不是执行运动估计以提取包含在帧中的运动信息并进行运动补偿以对齐它们。然而，与2D卷积方法相比，大多数方法具有相对较高的计算复杂性，这限制了它们用于实时视频超分辨率任务。

5.3 Recurrent Convolutional Neural Networks(RCNNs)

众所周知，RCNN在模拟序列数据（如自然语言、视频和音频）中的时间依赖性方面具有强大的能力。一种简单的方法是使用RCNN来处理视频序列。基于这一关键思想，已经提出了几种RCNN方法，如BRCN（Huang et al，2015，Huang et al.，2018）、STCN（Guo和Chao，2017）和RISTN（Zhu et al，2019）用于视频超分辨率。

5.3.1 BRCN

如图33所示，双向递归卷积网络（BRCN）（Huang et al，2015，Huang et al.，2018）由两个模块组成：前向子网络和后向子网络，其结构相似，仅在处理顺序上有所不同。前向子网负责建模来自先前帧的时间依赖性，而后向子网建模来自后续帧的时间依存性。

5.3.2 STCN

时空卷积网络（STCN）（Guo和Chao，2017）是一种没有MEMC的端到端VSR方法，如图34所示。通过使用LSTM提取帧内的时间信息（Hochreiter和Schmidhuber，1997）。类似于RISTN（Zhu等人，2019），网络由三部分组成：空间模块、时间模块和重建模块。空间模块负责从多个连续LR帧中提取特征。时间模块是LSTM的双向多尺度卷积变体，用于提取帧之间的时间相关性。

5.3.3 RISTN

残余可逆时空网络（RISTN）18（Zhu等人，2019）的灵感来自可逆块（Jacobsen等人，2018）。如图35所示，它设计了残差可逆块（RIB）、具有残差密集卷积的LSTM（RDC-LSTM）和稀疏特征融合策略，以自适应地选择有用的特征。这里，RIB用于有效地提取视频帧的空间信息，RDC-LSTM用于提取时空特征。网络主要分为三个部分：空间模块、时间模块和重构模块。空间模块主要由多个并行RIB组成，其输出用作时间模块的输入。在时间模块中，在提取时空信息之后，通过稀疏融合策略选择性地融合特征。最后，通过重建模块中的去卷积来重建目标帧的HR结果。

5.3.4 RLSP

图中所示的递归潜在空间传播（RLSP）（Fuoli等人，2019a）36提出算法避免了单个视频帧在非递归网络中被多次处理的问题。此外，该算法通过引入包含前一时刻产生的时间信息的隐藏状态作为当前时刻输入的一部分来隐式传输时间信息，并且不包括显式运动估计和运动补偿。

隐藏状态由RLSP单元生成，它由几个卷积组成。该单元接收先前时刻的隐藏状态、先前时刻的超分辨结果以及当前帧和相邻帧作为输入，以产生当前时刻的超解析结果和隐藏状态。重复此过程，直到处理完所有帧。

5.3.5 RSDN

图37所示的递归结构细节网络（RSDN）20（Isobe等人，2020）建议将框架分为两个部分，即结构和细节，然后通过后续模块分别处理这两个部分。

该算法首先使用双三次插值算法对输入LR帧进行下采样和上采样，以提取结构和细节分量。然后通过卷积和多个SD块处理这两个分量，以获得当前时刻的结构和细节分量、超分辨率结果和隐藏状态。SD块促进结构和细节组件之间的信息交换。此外，RSDN提出了隐藏状态自适应模块，以选择有利于超分辨率的信息，避免冗余信息的干扰。

总之，基于RCNN的方法适合于对视频中包含的时空信息进行建模，因为它们可以映射相邻帧，从而有效地与更轻量级的结构建立长期依赖关系。然而，传统的基于RCNN的方法很难训练，有时会遇到梯度消失问题。当输入序列的长度太大时，它们可能无法捕捉到长期依赖性，因此可能无法获得良好的性能。基于LSTM的方法可以在一定程度上克服这些限制，这有助于记忆较浅层的特征。然而，LSTM的复杂设计是限制其对硬件深度的一个因素，限制了其对非常长期依赖的建模。

5.4 Non-Local Methods

基于非局部的方法是另一种利用视频帧中包含的空间和时间信息实现超分辨率的方法。该方法得益于非局部神经网络的关键思想（Wang等人，2018），该网络被提出用于捕获视频分类的长距离依赖性。它克服了卷积和递归计算局限于局部区域的缺点。直观地说，非局部操作是计算位置的响应值，该值等于输入特征图中所有可能位置的权重和。其公式如下：

......

5.4.1 PFNL

渐进融合非局部（PFNL）（Yi等人，2019）方法如图38所示。它主要包括三个部分：非局部重块、渐进融合残差块（PFRB）和上采样块。PFNL使用非局部残差块来提取时空特征，并提出PFRB来融合它们。最后，通过亚像素卷积层的输出被添加到通过双三次插值进行上采样的输入帧，这是最终的超分辨率结果。PFRB由三个卷积层组成。首先，将输入帧分别与3×3核卷积，然后连接输出特征图，并通过执行1×1卷积来减小信道维数。并将结果分别与先前的卷积特征图连接，并进行3×3卷积。将最终结果添加到每个输入帧以获得当前PFRB的输出。

5.5 Other

该子类别中的方法不利用上述初始特征提取。他们可以结合多种技术来实现超分辨率。

5.5.1 RBPN

递归反向投影网络（RBPN）（Haris等人，2019）受到反向投影算法的启发（Irani和Peleg，19911993，Haris等人2018）。RBPN主要由一个特征提取模块、一个投影模块和一个重建模块组成，其架构如图39所示。特征提取模块包括两个操作：一个是提取目标帧的特征，另一个是从目标帧、相邻帧和计算出的从相邻帧到目标帧的光流的级联中提取特征，通过pyflow方法获得光流。投影模块由编码器和解码器组成。该编码器由多图像超分辨率（MISR）、单图像超分辨（SISR）和残差块（表示为ResBlock）组成。解码器由ResBlock和跨步卷积组成，它将前一个编码器的输出作为输入，为下一个投影模块的编码器生成LR特征。目标帧、下一相邻帧和预先计算的光流的级联被输入到特征提取模块，其输出也用于下一投影模块中的编码器。直到处理完所有相邻帧，上述过程才停止。也就是说，投影是反复使用的，这就是“反复反向投影网络”一词的原因。最后，重建模块通过级联的方式将每个投影模块中编码器的输出作为输入，以产生最终SR结果。

5.5.2 STARnet

时空感知多分辨率网络（STARnet）（Haris等人，2020）的架构如图所示。41。STARnet是一种端到端网络，可以同时处理视频超分辨率和视频插值。它包括以下三个阶段：初始化、优化和重建。在初始化阶段，STARnet接收四部分输入，包括两个LR RGB帧及其双向流图像。在此阶段，两个空间超分辨率（S-SR）模块可以通过DBPN（Haris等人，2018）或RBPN（Hares等人，2019）对两个LR帧执行超分辨率，并通过类似网络重新生成其LR对应物，以准备在时空超分辨率（ST-SR）模块中的LR和HR空间中进行帧插值。同时，运动模块对齐双向流动图像

5.5.3 DNSTNet

NSTNet（Sun等人，2020）是通过密集非局部时空卷积网络实现的视频超分辨率。这里，密集特征提取子网络由短期时间依赖性提取块（S-TBlock）、长期 TBlock 组成（L-TBlock）和密集连接，如图所示数字。它利用 3D 卷积来捕获短期相邻帧存在时间依赖性在 S-TBlock 中，双向 ConvLSTM 用于 L-TBlock 中的长期时间依赖性。它还提出了一个区域级别的非局部块跟随进行密集特征提取以利用全局信息，扩大有限的感受野3D 卷积和 ConvLSTM。这个非本地网络将特征映射分成多个补丁并分别处理它们以降低计算成本。综上所述，DNSTNet采用多个模块来提高VSR的性能。

尽管DNSTNET使用3D卷积模块、LSTM模块和非本地子网络，但它并不意味着比EDVR和DSMC性能更好。众所周知，网络架构是影响其性能的重要因素之一，其他因素包括训练策略和迭代次数也会影响其性能。与EDVR和DSMC方法相比，DNSTNET的训练策略可能设计得并不复杂。这是一种常见的初始化方法。但EDVR是由较浅的类似网络的参数初始化的。这可以提高性能。DSMC还具有更深的结构，这可能有助于提高性能。此外，在DNSTNET中，过多的未通过密集特征连接进行选择的特征被输入到非本地块进行计算。这些功能可能会带来冗余信息，从而导致性能下降。在DSMC中，提取的特征在输入到非本地块之前通过U3D-RDN模块进行细化。这种处理可以提高性能。

总之，基于非局部的方法将注意力机制引入到VSR任务中。它们可以通过将接受域扩展到全球来建立时空信息的有效依赖性。然而，其中使用的非本地模块需要通过关注所有其他位置并计算所有位置的特征的加权平均值来计算每个位置的响应。因此，这导致了较高的计算成本，并且可以做出一些努力来减少方法的计算开销。此外，没有对齐的方法依赖于神经网络的非线性能力来学习视频超分辨率的帧之间的运动相关性。它们不使用额外的模块来对齐框架。学习能力很大程度上取决于深度神经网络的设计。精心设计更有可能提高视频超分辨率的性能。

此外，我们还讨论了以下所有方法之间的深层联系。1） EDVR、DNLN、TDAN、D3Dnet和VESR-Net等属于可变形卷积范畴的方法都试图通过使用DConv结构来克服基于光流的方法的缺陷。当处理复杂的运动和变化的光照时，光流的估计是不准确的，而卷积核的感受野可以通过使用DConv来扩展。网络可以更好地捕捉复杂的运动和照明变化。2） DUF、FSTRN、3DSRnet和DSMC等方法都采用3D卷积层来同时学习空间和时间特征，而不是从视频数据中进行2D卷积。此外，他们还试图通过设计新的网络结构来避免复杂运动时运动估计和补偿的不准确。3） BRCN、STCN、RISTN、RLSP、RSDN和BasicVSR等方法通过使用双向递归卷积网络来利用视频帧中包含的长期上下文信息。双向RCNN可以通过前向递归网络和后向递归网络的组合来利用来自先前帧和未来帧的时间依赖性。4） RVSR、STCN、BRCN、EDVR、DNLN、TDAN、D3DNet、VESR-Net、DUF、3DSRNet和DSMC等方法涉及处理视频中的复杂运动。5）诸如MuCAN（MEMC类）、EDVR（DC类）、VESR-Net（DC类中）和PFNL（非本地类中）等方法试图捕获帧中不同位置之间的全局相关性。具体而言，EDVR方法中的TSA模块在每个帧上分配像素级权重以进行融合。MuCAN、VESR-Net和PFNL都设计了非本地模块来关联不同的补丁，从而提高了捕获运动信息的能力。6） DRVSR、MultiBoot VSR和DSMC等方法都解决了具有多个缩放因子的视频超分辨率问题。他们不仅考虑x4比例，还考虑×2、×3或×8比例。7） MultiBoot VSR、PFNL和RBPN等方法都注重改进训练策略。例如，PFNL采用剩余学习来稳定培训过程。

6 Performance Comparisons
6.1 Datasets and Competitions

表2总结了VSR任务中使用的一些最流行的数据集的详细信息。用于训练的最广泛的数据集是Vimeo-90K，因为它是目前最大的具有真实场景的VSR数据集。用于测试的最流行的数据集是Vid4，Vid4帧包含比其他帧更多的高频细节。因此，Vid4经常用于评估VSR方法的性能。REDS包括移动量非常大的视频，这对VSR方法来说是一个挑战。

此外，我们还总结了表3中关于视频超分辨率的几项国际比赛。NTIRE 2019挑战赛（Nah et al，2019a，b）旨在恢复具有大型运动和不同真实场景的视频。其获胜的解决方案是EDVR（Wang等人，2019a），这可能是VSR最受欢迎的作品之一。2019年（Fuoli等人，2019b）和2020年（Fu奥利等人，2020）的AIM挑战都鼓励采用大规模因素的VSR解决方案。EDVR增强的方法赢得了AIM 2019挑战，而EVESRNet（Dario等人，2020）赢得了AIM2020挑战。此外，2019年YOUKU视频超分辨率和增强挑战赛和移动视频恢复挑战赛都是针对与娱乐更相关的视频。YOUKU挑战的获胜解决方案是VESR Net（Chen等人，2020）。移动AI 2021实时视频超分辨率挑战（Ignatov等人，2021）评估了OPPO Find X2智能手机GPU上的解决方案。最近的NTIRE《2021视频超分辨率挑战》（NTIRE 2021 Challenge on Video SuperResolution）衡量了最先进的技术（Son等人，2021），其获胜者是BasicVSR++（Chan等人，2021d）。这些比赛为视频超分辨率的发展做出了巨大贡献，并有助于开发各种视频超分辨率应用的新方法。

6.2 Performance of Methods

此外，我们总结了表4中具有比例因子4的代表性VSR方法在PSNR和SSIM方面的性能。补充材料中报告了放大系数为2和3的VSR任务的更多实验结果。退化类型是具有图像调整功能（BI）的双三次下采样和高斯模糊和下采样（BD）。请注意，PSNR和SSIM的一部分来自其原始作品。简单的性能比较可能不公平，因为视频中的训练数据、预处理和裁剪区域在方法上可能完全不同。列出了有关性能的详细信息，以供读者参考。

......

IconVRR和EDVR在三个数据集上显示出优异的性能。IconVSR使用光流进行特征对齐，使用双向递归网络进行时间特征传播，使用信息填充机制进行特征细化。凭借这些特性，它在某些情况下优于其他一些方法，并在Vimeo-90K-T和Vid4上实现了比BI降级更高的BD降级性能增益。EDVR采用级联多尺度可变形卷积进行对齐，TSA融合多帧。与同样采用可变形卷积的DNLN不同，EDVR可以捕获多尺度特征信息。与TDAN和D3Dnet相比，EDVR的体系结构更复杂，可以从输入中学习更多信息，尽管它们都使用可变形卷积进行对齐。EDVR的参数为20MB，远远超过其他顶级网络。这可能解释了其更好的性能。

对于Vid4数据集，RLSP和RSDN都采用递归卷积神经网络作为骨干，以利用包含在多个帧中的时间信息。RSDN进一步将帧划分为结构和细节以分别处理它们，并在它们之间交换信息。这种精细的提取归因于其性能。PFNL提出了非局部残差块来捕获帧之间的长距离时空相关性，这可能优于一些传统的基于MEMC的方法。

对于Vimeo-90K-T数据集，MuCAN的性能可能归因于两个主要模块，CN-CAM和TM-CAM。前一个模块可以分层地聚合信息以处理大的和细微的运动，后一个模块在不同的特征分辨率内捕获非局部通信。RSDN依赖于结构和细节之间的信息交换，以在Vimeo-90K-T上获得更好的性能。值得注意的是，MuCAN有19.MB的参数，这远远超过了该数据集上RSDN和IconVSR的参数。

此外，对于REDS4数据集，我们注意到EDVR和MuCAN的参数都超过20.0 MB，这远远超过了IconVSR和DSMC的参数，尽管它们在排行榜上排名第二和第三。DSMC提出了U3DRDN模块，该模块学习从粗到细的时空特征，以及MSCU，该模块将上采样分解为多个子任务，以充分利用中间结果，以及用于辅助训练的双子网。DSMC显示出优于其他3D卷积方法的性能。

6.3 Guidelines for Model Selection

在本小节中，我们为读者提供了一些指南，以根据表4中的结果选择不同的模型。对于具有逼真纹理和丰富细节但没有大运动的超分辨率视频，以下方法可以作为主要候选：IconVSR、RSDN、EDVR、RLSP、DUF、DNLN、DSMC、PFNL、RBPN和FRVSR。这些方法根据Vid4数据集上的PSNR值排序，其视频包含更多高频细节。其中，EDVR和DNLN都具有超过20.0MB的参数，适用于对GPU内存没有严格限制的应用。IconVSR、RSDN、RLSP、DUF、PFNL和FRVSR等方法的模型参数小于10.0MB，可能更适合移动设备和嵌入式系统的应用。

当处理具有复杂和大运动的视频序列时，可以选择IconVSR、EDVR、DSMC、RBPN和PFNL等方法。这些方法的性能按降序排列，并参考其在REDS数据集上的PSNR结果。与上述应用程序类似，EDVR中的参数数量超过20.0 MB，而IconVSR和PFNL的参数数量小于10.0 MB。

对于除上述两个视频之外的通用视频，我们建议使用IconVSR、EDVR、MuCAN、RSDN、RBPN、RLSP、PFNL和FRVSR方法。这些方法根据Vimeo-90k-T数据集上的PSNR值排序。EDVR中的参数数量大于20.0MB，IconVSR、MuCAN、RSDN、RLSP、PFNL和FRVSR的参数数量小于10.0MB。

对于选择对齐方法，还有一些其他提示。当不准确的运动估计和对准可能为具有大运动或光照变化的视频引入伪影时，基于可变形卷积的方法对于VSR任务更为鲁棒。当考虑视频超分辨率的在线应用时，单向网络可能是最佳候选，其中信息从第一帧顺序传播到最后一帧。而对于离线应用程序，双向网络是VSR的更好选择，在该网络中，功能可以在时间上独立地向前和向后传播。在这种情况下，可以顺序地和反向地估计光流。众所周知，运动估计是对准方法的一个关键步骤，它直接影响VSR方法的性能。当提出更先进的估计方法时，可以使用它们来提高VSR的性能。

7 Applications of Video Super-Resolution

通过使用VSR技术，可以提高视频帧的分辨率，并获得更好的视觉质量和识别精度。它有多种应用，如遥感、医疗诊断、视频解码和3D重建。

7.1 Video Decoding

在（Gleister等人，2011）中，提出了一种基于补丁的超分辨率方法来解码视频播放的帧，并将其集成在视频压缩管道中。Dai等人（2015）提出了一种基于字典学习和亚像素运动补偿的VSR算法。该算法对单帧SR采用了多个双层字典。同时，他们提出了一种字典学习算法，其中字典是从连续视频帧中训练出来的。在（Liu和Cui，2018）中，将改进的超分辨率重建算法应用于解码数据以重建高清视频，该算法是所提出的低比特率编码方案的一部分。在（Umeda等人，2018）中，锚定邻域回归SR方法（Timtet等人，2014）用于所提出的视频编码系统中的解码。

Kim等人（2018b）提出了一种硬件友好的VSR算法，该算法可以将全高清（FHD）视频流升级为4K超高清视频流，并在现场可编程门阵列（FPGA）和专用集成电路（ASIC）硬件中实现，用于实时视频重建。他们进一步提出了一种基于FPGA的SR网络结构。通过使用级联卷积和深度方向可分离残差网络，减少了参数的数量（Kim等人，2018c）。在（Wei等人，2019）中，通过网络修剪和量化实现并加速了基于CNN的SR算法，并将该算法集成在其基于FPGA的实时系统中，该系统支持从H.FHD到H.265/HEVC UHD的视频流转码。

7.2 Remote Sensing

VDSR和ESPCN等图像SR方法已用于提高卫星视频中对象的分辨率（Luo等人，2017，Xiao等人，2018）。在（Jiang等人，2018a）中，提出了带有过渡单元的渐进增强网络，以增强具有精细细节的残差图像。此外，Jiang等人（2018b）提出了一种具有多尺度净化单元的深度蒸馏递归网络，以超分辨吉林1号卫星视频中的图像。Liu等人（2020a）提出了一种框架，以最大后验概率对图像先验进行姿态设置，以正则化解空间并生成相应的高分辨率视频框架。该框架通过利用时空邻居和非局部空间相似性来组合隐式捕获的局部运动信息，以恢复HR帧。对吉林1号卫星和OVS-1A卫星的视频进行的实验验证了该方法可以保留边缘和纹理细节。

7.3 Medical Analysis

Poot等人（2010年）和Odille等人（2015年）从不同方向的多个低分辨率MRI切片中以高分辨率重建了各向同性3D磁共振成像（MRI）数据，并且他们没有利用精确的运动估计和对准。在（Zhang等人，2012年）中，HR 4D计算机断层扫描（CT）图像在不同呼吸阶段通过每个切片的几个帧进行超分辨率处理。Yu等人（2017）提出了一种多层CT SR网络，将连续CT切片作为视频帧输入。它由几个卷积层和一个重排层组成，5800个切片的子集用于训练模型，其他1000个切片用于测试。Ren等人（2019）提出了一个框架，该框架在DBPN中采用了迭代上采样层和一个下采样层（Haris等人，2018），为医疗视频的重建提供了错误反馈机制。Lin等人（2020）提出了一种超级解析心脏MRI切片的网络，该网络使用双向ConvLSTM作为网络主干。它利用心脏领域知识，并迭代增强低分辨率MRI切片。

7.4 Surveillance Videos

Shamsolmoali等人（2019）提出了一个深度CNN来对低分辨率监控视频进行上采样。CNN由不到20层组成，在两个监控数据集（主要是室内视频）上进行训练和测试。Lee等人（2018）利用SRGAN（Ledig等人，2017）来增强车牌上字符的细节，他们还收集了一个低分辨率的视频数据集，并评估了他们的方法以验证其有效性。Guo等人（2020）采用DeblurGAN（Kupyn等人，2018）去除相邻帧的运动模糊，然后对相邻帧执行MEMC。最后，可以通过多帧超分辨率算法重建高分辨率视频帧。为了超级解析多视图人脸视频，Deshmukh和Rani（2019）提出了一种基于分数灰太狼优化器的内核，用于人脸视频中的相邻像素估计。Xin等人（2020）提出了一种简单但有效的运动自适应反馈单元，该单元可以捕获运动信息并以自适应方式将其反馈给网络，以实现视频人脸超分辨率。

7.5 3D Reconstruction

通过使用输入视频序列，Burns等人（2017）提出了一种SR方法，该方法生成具有增强纹理的观察场景的3D网格。对于多视点视频SR方法，Li等人（2016）采用了核回归来升级信息提取层，并利用非局部方法来信息合并层。此外，Li等人（2019b）提出了第一个框架，该框架超级解析了从多个视点捕获的3D对象的外观。该框架将基于2D深度学习的技术的力量与多视图设置中的3D几何信息相结合。

7.6 Virtual Reality

Liu等人（2020b）提出了单帧和多帧联合超分辨率网络，该网络包括360度全景视频SR的加权均方误差损失函数。他们还提供了一个新的全景视频数据集：MiG全景视频，用于评估全景VSR算法。Dasari等人（2020）提出了一种视频流系统，以减少360度视频的带宽需求。客户端运行基于深度学习的SR模型来恢复在服务器上被严重压缩的视频。作者还就视频体验质量与其他最先进的视频流系统进行了比较

7.7 Thermal Videos

在（Kwasniewska等人，2019）中，提出了一种基于CNN和残差连接的超分辨率模型，以增强热摄像机获取的热视频，并无接触地估计呼吸频率。与以前的方法相比，使用超分辨序列提高了性能。Gautam和Singh（2020）通过在基准热数据集上使用不同的深度神经网络，讨论了SR技术的性能，包括SRCNN（Dong等人，2014）、EDSR（Lim等人，2017）、自动编码器和SRGAN（Ledig等人，2016）。基于实验结果，他们得出结论，与其他产品相比，SRGAN在热框架上的性能更优越。

8 T rends and Challenges

尽管基于深度学习的最先进视频超分辨率方法取得了巨大进展，尤其是在一些公共基准数据集上，但仍存在以下挑战和趋势。

8.1 Lightweight Super-Resolution Models

基于深度学习的视频超分辨率方法具有很高的性能，但它们在许多现实问题中难以有效部署。值得注意的是，他们的模型通常有大量的参数，需要大量的计算和存储资源，而且他们的训练也需要很长时间。随着现代生活中移动设备的普及，人们期望将这些模型应用于此类设备。为了解决这个问题，提出了几种轻量级超分辨率方法，例如RISTN（Zhu et al，2019）、TDAN（Tian et al，2020）和（Xiao et al，2021）。如何为现实世界的应用程序设计和实现具有高性能的轻量级超分辨率算法是一个重大挑战。

8.2 Interpretability of Models

深度神经网络通常被认为是黑匣子。也就是说，我们不知道当性能好或坏时模型会学到什么真实信息。在现有的视频超分辨率模型中，卷积神经网络如何恢复低分辨率视频序列还没有理论解释。随着对其解释的深入研究，视频和图像的超分辨率算法的性能可能会大大提高。一些工作已经注意到了这个问题，例如（Chan等人，2021c）和（Liu等人，2021b）。

8.3 Super-Resolution with Larger Scaling Factors

对于视频超分辨率任务，现有的工作主要集中在放大因子×2、×3和×4的情况下。更具挑战性的尺度，如×8和×16，很少被探索。随着高分辨率（例如8K和16K）显示设备的普及，需要进一步研究更大的缩放因子。显然，随着规模越来越大，预测和恢复视频序列中的未知信息更具挑战性。这可能导致算法的性能下降，并削弱模型的鲁棒性。因此，如何为具有较大缩放因子的VSR任务开发稳定的深度学习算法仍然具有挑战性。到目前为止，关于VSR的此类工作还很少，而针对具有较大缩放因子的单图像超分辨率储罐，如×8，提出了一些工作，如（Chan et al，2021a）和（Chen et al，2021）

8.4 Super-Resolution with Arbitrary Scaling Factors

从表4中，我们可以看出，大多数视频超分辨率方法都是针对比例因子×4的情况而设计的，这不适用于实际场景。一方面，其他尺度如×2、×3或×1.5在VSR任务中也很常见。另一方面，具有固定尺度的视频超分辨率模型将严重限制其通用性和可移植性。因此，在实际应用中，非常需要针对任意比例因子的通用VSR方法。已经提出了一些关于具有任意比例因子的图像超分辨率的工作，例如（Hu等人，2019）和（Wang等人，2021a），而关于视频的任意比例因子上采样的工作仍然很少。

8.5 More Reasonable & Proper Degradation Process of Videos

在现有的工作中，通过两种方法获得退化的LR视频：一种是通过使用插值（例如双三次）直接对HR视频进行下采样。另一种是对HR视频执行高斯模糊，然后对视频序列进行下采样。尽管这两种方法在理论上都表现良好，但在实践中总是表现不佳。众所周知，真实世界中的退化过程非常复杂，并且包含很多不确定性。模糊和插值不足以对这个问题进行建模。因此，在构建LR视频时，应在理论上根据真实情况对退化进行建模，以减少研究与实践之间的差距。有一些工作涉及超分辨率视频的退化过程，例如（Zhang等人，2018a）。

8.6 Unsupervised Super-Resolution Methods

大多数最先进的VSR方法采用监督学习范式。换句话说，深度神经网络需要大量成对的LR和HR视频帧进行训练。然而，在实践中，这种成对的数据集很难获得或成本很高。人们可以合成LR/HR视频帧，但超分辨率方法的性能仍然不令人满意，因为退化模型太简单，无法描述真实世界的问题，并导致不准确的HR/LR数据集。因此，非常需要无监督的VSR方法。已经提出了一些关于卫星视频的无监督VSR的工作，例如（He等人，2020），但没有关于通用视频。

8.7 More Effective Scene Change Algorithms

现有的视频超分辨率方法很少涉及具有场景变化的视频。实际上，视频序列通常有许多不同的场景。当我们考虑这类视频的视频超分辨率问题时，它们必须在不改变场景的情况下被分割成多个片段并单独处理。这可能会导致大量的计算时间。事实上，已经提出了3DSRnet中的一个简单子网（Kim等人，2019）来处理场景变化，它包括场景边界检测和帧替换。对于真实世界的应用程序，需要更专用的网络来处理具有复杂场景变化的视频

8.8 More Reasonable Evaluation Criteria for Video Quality

评价超分辨率结果质量的标准主要包括PSNR和SSIM。然而，它们的值不能反映人类感知的视频质量。也就是说，即使恢复的视频的PSNR值很高，视频也会让人不舒服。因此，需要为符合人类感知的视频制定新的评估标准。图像的质量评估受到了更多关注，例如（Gu等人，2020）。然而，包括帧间一致性在内的视频质量将在未来进行研究。

8.9 More Effective Methods for Leveraging Information

视频超分辨率方法的一个重要特征是利用视频帧中包含的信息。利用率的有效性直接影响性能。尽管已经提出了许多方法，如本文所述，但仍存在一些缺点。例如，3D卷积和非局部模块需要大量的计算，并且不能保证光学估计的准确性。因此，可以有效利用不同帧中包含的信息的方法值得进一步研究。

9 Conclusions

在这项调查中，我们回顾了近年来用于视频超分辨率的深度学习方法的发展。我们首先通过利用视频帧中包含的信息将现有的视频超分辨率算法分为七个子类别，描述了代表性方法的关键思想，并总结了每种方法的优缺点。此外，我们还比较和分析了这些方法在基准数据集上的性能，并概述了视频超分辨率算法的广泛应用。尽管基于深度学习的VSR方法已经取得了很大进展，但我们列出了VSR算法开发的八个开放问题，这有望为研究人员提供一些启发。