EDVR: Video Restoration with Enhanced Deformable Convolutional Networks

视频恢复任务,包括超分辨率、去模糊等,正在引起计算机视觉界越来越多的关注。在NTIRE19挑战赛中发布了名为REDS的挑战性基准。这个新的基准从两个方面挑战了现有的方法:(1)如何在给定大运动的情况下对齐多个帧,以及(2)如何有效地将不同的帧与不同的运动和模糊融合。在这项工作中,我们提出了一种新的具有增强可变形卷积的视频恢复框架,称为EDVR,以解决这些挑战。首先,为了处理大的运动,我们设计了一个金字塔、级联和可变形(PCD)对齐模块,其中使用可变形卷积以从粗到细的方式在特征级别进行帧对齐。第二,我们提出了一个时间和空间注意力(TSA)融合模块,其中注意力在时间和空间上都得到了应用,以强调后续恢复的重要特征。得益于这些模块,我们的EDVR在NTIRE19视频恢复和增强挑战中赢得了冠军,并在所有四个赛道上以大幅优势超过第二名。EDVR还展示了在视频超分辨率和去模糊方面优于最先进的已发表方法的性能

1. Introduction

在本文中,我们描述了我们在NTIRE 2019视频恢复和增强挑战中获胜的解决方案。该挑战为上述任务发布了一个有价值的基准,称为真实感和多样化场景数据集(REDS)[26]。与现有数据集相比,REDS中的视频包含更大、更复杂的运动,使其更真实、更具挑战性。这种竞争使得不同算法之间能够进行公平的比较,并促进了视频恢复的进展。由于深度学习,图像恢复任务(如超分辨率(SR)[5,20,41,18,45,52]和去模糊[27,15,38])在过去几年中经历了显著的改进。这些成功鼓励社区进一步尝试深入学习更具挑战性的视频恢复问题。早期研究[36,4,33,19,11]将视频恢复视为图像恢复的简单扩展,未充分利用相邻帧之间的时间冗余。最近的研究[2,48,37,32]通过更精细的管道解决了上述问题,管道通常由四个部分组成,即特征提取、对齐、融合和重建。当视频包含遮挡、大运动和严重模糊时,挑战在于对准和融合模块的设计。为了获得高质量的输出,必须(1)在多个帧之间对齐并建立精确的对应关系,以及(2)有效地融合对齐的特征以进行重建。

Alignment. 大多数现有方法通过显式估计参考帧与其相邻帧之间的光流场来执行对准[2,48,13]。基于估计的运动场来扭曲相邻帧。另一个研究分支通过动态滤波[10]或可变形卷积[40]实现隐式运动补偿。REDS对现有的对齐算法提出了极大的挑战。特别是,对于基于流的方法来说,精确的流估计和精确的扭曲可能是具有挑战性和耗时的。在大运动的情况下,很难在单个分辨率范围内显式或隐式地执行运动补偿

Fusion. 融合对齐帧中的特征是视频恢复任务中的另一个关键步骤。大多数现有方法要么使用卷积对所有帧进行早期融合[2],要么采用递归网络逐步融合多个帧[32,6]。Liu等人[22]提出可在不同时间尺度上动态融合的自适应网络. 这些现有方法都没有考虑每一帧的潜在视觉信息性——不同的帧和位置对重建没有同等的信息或益处,因为某些帧或区域受到不完美对齐和模糊的影响。

Our Solution. 我们提出了一个称为EDVR的统一框架,该框架可扩展到各种视频恢复任务,包括超分辨率和去模糊。EDVR的核心是(1)称为金字塔、级联和可变形卷积(PCD)的对齐模块,以及(2)称为时间和空间注意力(TSA)的融合模块。PCD模块受到TDAN[40]的启发,使用可变形卷积将每个相邻帧与特征级别的参考帧对齐。与TDAN不同,我们以从粗到细的方式执行对齐,以处理大型和复杂的运动。具体而言,我们使用金字塔结构,该结构首先将较低尺度的特征与粗略估计对齐,然后将偏移和对齐的特征传播到较高尺度,以促进精确的运动补偿,类似于光流估计中采用的概念[7,9]。此外,我们在金字塔对齐操作之后级联额外的可变形卷积,以进一步提高对齐的鲁棒性。

所提出的TSA是一个融合模块,可帮助聚合多个对齐特征的信息。为了更好地考虑每个帧上的视觉信息性,我们通过计算参考帧和每个相邻帧的特征之间的元素相关性来引入时间注意力。然后,相关系数对每个位置处的每个相邻特征进行加权,指示其对于重建参考图像的信息量。然后将来自所有帧的加权特征卷积并融合在一起。在与时间注意力融合之后,我们进一步应用空间注意力为每个信道中的每个位置分配权重,以更有效地利用跨信道和空间信息

我们参与了视频恢复和增强挑战[29,28]中的所有四个轨道,包括视频超分辨率(清晰/模糊)和视频去模糊(清晰/压缩伪影)。由于有效的对齐和融合模块,我们的EDVR在所有四个具有挑战性的赛道中都获得了冠军,证明了我们方法的有效性和可推广性。除了比赛结果,我们还报告了现有视频超分辨率和去模糊基准的比较结果。我们的EDVR在这些视频恢复任务中表现出优于最先进方法的性能。

2. Related Work

Video Restoration.自从SRCNN的先驱工作[5]以来,深度学习方法在图像和视频超分辨率方面带来了显著的改进。对于视频超分辨率而言,时间对准起着重要作用,并已被广泛研究。几种方法[2,37,32]使用光流来估计图像之间的运动并执行扭曲。然而,精确的流动很难获得给定的遮挡和大的运动。TOFlow[48]还表明,标准光流不是视频恢复的最佳运动表示。DUF[10]和TDAN[40]通过隐式运动补偿规避了这一问题,并超越了基于流的方法。我们的EDVR还具有隐式对齐的优点,采用金字塔和级联结构来处理大型运动。视频去模糊还得益于基于学习的方法的发展[12,24,30,34]。有几种方法[34,51]直接融合多个帧而无需显式时间对齐,因为模糊的存在增加了运动估计的难度。与这些方法不同,我们尝试使用对齐从多个帧获取信息,稍微修改一下,当存在模糊时,在对齐之前添加图像去模糊模块

Deformable Convolution.Dai等人[3]首先提出了可变形卷积,其中学习了额外的偏移,以允许网络从其规则的局部邻域获得信息,从而提高了规则卷积的能力。可变形卷积广泛用于各种任务,如视频对象检测[1]、动作识别[53]、语义分割[3]和视频超分辨率[40]。特别地,TDAN[40]使用可变形卷积来在特征级别对齐输入帧,而无需显式运动估计或图像扭曲。受TDAN启发,我们的PCD模块采用可变形卷积作为对齐的基本操作。

Attention Mechanism.

注意力已在许多任务中证明其有效性[43,47,22,23,52]。例如,在视频SR中,Liu等人[22]学习了一组权重图,以权衡来自不同时间分支的特征。非局部操作[44]将某个位置的响应计算为所有位置的特征的加权和,以捕获长距离依赖性。由于这些工作的成功,我们在TSA融合模块中使用了时间和空间注意力,以允许对不同的时间和空间位置进行不同的关注。

3. Methodology
3.1. Overview

给定2N+1个连续低质量帧I[t−N:t+N],我们将中间帧It表示为参考帧,将其他帧表示为相邻帧。视频恢复的目的是估计接近地面真实帧Ot的高质量参考帧。拟建EDVR的总体框架如图2所示。它是一种适用于多种视频恢复任务的通用架构。包括超分辨率、去模糊、去噪、去块。以视频SR为例,EDVR以2N+1个低分辨率帧作为输入,并生成高分辨率输出。PCD对准模块在特征级别将每个相邻帧对准参考帧。TSA融合模块融合不同帧的图像信息。第3.2节和第3.3节描述了这两个模块的详细信息。融合的特征然后通过重建模块,该模块是EDVR中的残余块的级联,可以容易地被单个图像SR中的任何其他高级模块替换[46,52]。在网络末端执行上采样操作以增加空间大小。最后,通过将预测的图像残差添加到直接上采样图像中,获得高分辨率帧^Ot。

对于具有高空间分辨率输入的其他任务,例如视频去模糊,首先使用跨步卷积层对输入帧进行下采样。然后,大多数计算在低分辨率空间中进行,这大大节省了计算成本。末端的上采样层将调整特征的大小,使其回到原始输入分辨率。在对准模块之前使用PreDeblur模块来预处理模糊输入并提高对准精度。虽然单个EDVR模型可以实现最先进的性能,但我们采用两阶段策略来进一步提高NTIRE19竞争中的性能。具体而言,我们级联相同的EDVR网络,但深度较浅,以细化第一阶段的输出帧。级联网络可以进一步去除先前模型无法处理的严重运动模糊。详情见第3.4节。

3.2. Alignment with Pyramid, Cascading and Deformable Convolution

我们首先简要回顾了可变形卷积用于对齐的使用[40],即,将每个相邻帧的特征与参考帧的特征对齐......

在金字塔结构之后,后续的可变形对齐被级联以进一步细化粗略对齐的特征(图3中带有浅紫色背景的部分)。PCD模块以这种从粗到细的方式改善了亚像素精度的对准。我们在第4.3节中证明了PCD的有效性。值得注意的是,PCD对准模块与整个框架一起学习,无需额外监督[40]或对其他任务(如光流[48])进行预训练.

3.3. Fusion with Temporal and Spatial Attention

帧间时间关系和帧内空间关系在融合中至关重要,因为1)由于遮挡、模糊区域和视差问题,不同的相邻帧的信息量不相等;2) 由前一对准阶段引起的未对准和未对准对随后的重建性能产生不利影响。因此,在像素级动态聚集相邻帧对于有效和高效的融合是必不可少的。为了解决上述问题,我们提出TSA融合模块在每个帧上分配像素级聚合权重。具体而言,我们在融合过程中采用了时间和空间注意,如图4所示。时间注意力的目标是计算嵌入空间中的帧相似性。直观地,嵌入空间,一个与参考帧更相似的相邻帧,应该受到更多的关注。对于每个框架i∈[−N:+N],相似距离h可以计算为:

......

3.4. Two-Stage Restoration

尽管配备PCD对准模块和TSA融合模块的单个EDVR可以实现最先进的性能,观察到恢复的图像不是完美的,特别是当输入帧模糊或严重失真时。在这样的恶劣环境下,运动补偿和细节聚集受到影响,导致较差的重建性能。直观地,粗略恢复的帧将大大减轻对齐和融合的压力。因此,我们采用两阶段策略来进一步提高性能。具体而言,级联类似但较浅的EDVR网络以细化第一级的输出帧。其好处有两方面:1)它有效地消除了以前模型中无法处理的严重运动模糊,提高了恢复质量;2) 它减轻了输出帧之间的不一致性。第4.4节说明了两阶段修复的有效性.

4. Experiments
4.1. Training Datasets and Details

Training datasets.

先前关于视频处理的研究[21,10,34]通常在私人数据集上开发或评估。缺乏标准和开放的视频数据集限制了公平的比较。REDS[26]是NTIRE19竞赛中新提出的高质量(720p)视频数据集。REDS包括240个训练剪辑、30个验证剪辑和30个测试剪辑(每个都有100个连续帧)。在比赛期间,由于测试场地的真实性不可用,我们选择了四个具有代表性的片段(具有不同的场景和动作)作为测试集,由REDS41表示。剩余的训练和验证片段被重新分组为我们的训练数据集(总共266个片段)。为了与我们在竞争中的方法和流程保持一致,我们在本文中也采用了这种配置。Vimeo-90K[48]是一个广泛用于训练的数据集,通常与Vid4[21]和Vimeo-900K测试数据集(由Vimeo-90K-T表示)一起用于评估。当训练集的分布偏离测试集的分布时,我们观察到数据集偏差。更多详情见第4.3节。

Training details.

PCD对准模块采用五个残差块(RB)来执行特征提取。我们在重建模块中使用40个RB,在第二阶段模型中使用20个RB。每个残差块中的信道大小被设置为128。我们分别使用大小为64×64和256×256的RGB补丁作为视频SR和去模糊任务的输入。小批量大小设置为32。除非另有规定,否则网络采用五个连续帧(即N=2)作为输入。我们用随机水平翻转和90◦ 旋转。我们只采用Charbonnier惩罚函数[17]作为最终损失,定义如下:

......

我们通过设置β1=0.9和β2=0.999。学习率初始化为4×10^−4。我们通过来自浅层网络的参数来初始化更深的网络,以便更快地收敛。我们使用PyTorch框架实现我们的模型,并使用8个NVIDIA Titan Xp GPU对其进行训练.

4.2. Comparisons with State-of-the-art Methods

我们将我们的EDVR与几种最先进的视频SR和视频去模糊方法进行了比较。未使用两阶段和自集成策略[20]。在评估中,我们包括所有输入帧,除了DUF方法外,不裁剪任何边界像素[10]。由于DUF的严重边界效应,我们在图像边界附近裁剪了八个像素。

Video Super-Resolution

我们在三个测试数据集Vid4[21]、Vimeo-90K-T[48]和REDS4上比较了我们的EDVR方法与九种算法:RCAN[52]、DeepSR[19]、BayersSR[21]、VESPCN[2]、SPMC[37]、TOFlow[48]、FRVSR[32]、DUF[10]和RBPN[6]。以前的大多数方法使用不同的训练集和不同的下采样核,使得比较变得困难。每个测试数据集都有不同的特征。Vid4通常用于视频SR。数据具有有限的运动。视觉伪影也存在于其地面真实(GT)帧上。Vimeo-90K-T是一个更大的数据集,具有各种运动和不同的场景。REDS4由高质量图像组成,但具有更大和更复杂的运动。当训练集和测试集有很大差异时,我们观察到数据集偏差。因此,当在Vid4和Vimeo-90K-T上评估时,我们在Vimeo-900K上训练我们的模型。

Vid4、Vimeo-90K-T和REDS4的定量结果分别显示在表1、表2和表3(左)中。在Vid4上,EDVR实现了与DUF相当的性能,并大大优于其他方法。在Vimeo-90K-T和REDS上,EDVR明显优于最先进的方法,包括DUF和RBPN。Vid4和Vimeo90K-T的定性结果分别如图5和图6所示。在两个数据集上,与现有方法相比,EDVR恢复了更精确的纹理,尤其是在图6的第二幅图像中,只有在EDVR的输出中才能正确识别字符。

Video Deblurring.

在REDS4数据集上,我们将EDVR方法与四种算法进行了比较:DeepDeblur[27]、DeblurGAN[16]、SRNDeblur[39]和DBN[34]。定量结果如表3(右)所示。我们的EDVR大大优于最先进的方法。我们将此归因于我们方法的有效性和包含复杂模糊的具有挑战性的REDS数据集。视觉结果如图7所示,虽然大多数方法都能解决小模糊问题,但只有EDVR能够成功地从极度模糊的图像中恢复清晰的细节。

4.3. Ablation Studies
PCD Alignment Module.

如表4(左)所示,我们的基线(模型1)仅采用一个可变形卷积进行对齐。模型2遵循TDAN[40]的设计,使用四个可变形卷积进行对准,实现了0.2dB的改进。使用我们提出的PCD模块,模型3比模型2好近0.4 dB,计算成本大致相同,证明了PCD对准模块的有效性。在图8中,我们显示了不同的对齐模块前后的代表性特征,并描述了参考特征和相邻特征之间的流动(由PWCNet[35]导出)。与没有PCD对准的流相比,PCD输出的流小得多,也更干净,这表明PCD模块可以成功地处理大型和复杂的运动

TSA Attention Module.

如表4(左)所示,使用TSA关注模块,与具有类似计算的模型3相比,模型4实现了0.14dB的性能增益。在图9中,我们展示了参考帧和相邻帧之间的流,以及每个帧的时间注意力。观察到,具有较低流量大小的帧和区域往往具有较高的关注度,表明运动越小,对应的帧和区的信息量越大。

Dataset Bias.

如表4(右)所示,我们对视频超分辨率的训练和测试数据集进行了不同的设置。结果表明,存在较大的数据集偏差。当训练和测试数据分布不匹配时,性能降低0.5-1.5dB。我们认为视频恢复方法的普遍性值得研究。

4.4. Evaluation on REDS Dataset

我们参与了NTIRE19视频恢复和增强挑战[29,28]中的所有四个赛道。定量结果见表5。我们的EDVR赢得了冠军,并在所有赛道上以大幅度超过第二名。在比赛中,我们采用了自我组合[42,20]。具体来说,在测试期间,我们翻转并旋转输入图像,为每个样本生成四个增强输入。然后,我们对每一个应用EDVR方法,对恢复的输出进行反向转换,并对最终结果进行平均。第3.4节所述的两阶段恢复策略也用于提高性能。如表6所示,我们观察到抑制大大提高了0.5dB左右的性能(EDVR(+)vs.EDVR-S2(+))。虽然自集成在第一阶段(EDVRvs.EDVR+)有帮助,但在第二阶段(EDVR-S2 vs。EDVR-S2+)。定性结果如图10所示。据观察,第二阶段有助于在具有挑战性的情况下恢复清晰的细节,例如,输入极为模糊。

5. Conclusion

我们已经在NTIRE 2019视频恢复和增强挑战中介绍了我们的获胜方法。为了应对竞争中发布的具有挑战性的基准,我们提出了EDVR,这是一个具有独特设计的统一框架,可在各种视频恢复任务中实现良好的对齐和融合质量。得益于PCD对准模块和TSA融合模块,EDVR不仅在NTIRE19挑战赛中赢得了所有四个赛道,而且在视频超分辨率和去模糊的几个基准上显示出优于现有方法的性能。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值