FISR: 一个将视频超分辨率和插帧联合起来做的深度学习网络

·如烟·

已于 2023-07-26 17:48:41 修改

阅读量667

点赞数 1

文章标签：机器学习神经网络

于 2020-02-27 16:04:48 首次发布

原文链接：https://arxiv.org/pdf/1912.07213.pdf

版权

在这里插入图片描述
原文地址：https://arxiv.org/pdf/1912.07213.pdf

Abstract

超分辨率（SR）已被广泛用于将低分辨率的旧视频转换为高分辨率（HR）的视频，以适应显示器（例如UHD电视）分辨率的提高。但是，人类变得更容易注意到在较大尺寸的显示设备上呈现的HR视频中的运动伪像（例如，运动抖动）。因此，广播标准支持UHD（超高清）视频（4K @ 60 fps，8K @ 120 fps）的更高帧速率，这意味着仅应用SR不足以产生真正的高质量视频。因此，为了将遗留视频上转换以用于实际应用，不仅需要SR，而且还需要视频帧插值（VFI）。在本文中，我们首先提出一个联合VFI-SR框架，用于将视频的时空分辨率从2K 30 fps提升到4K 60 fps。为此，我们提出了一种具有多尺度时间损失的新颖训练方案，该方案将时间正则化强加于输入视频序列，该方法可应用于任何与视频有关的常规任务。所提出的结构已通过广泛的实验进行了深入分析。

Introduction

随着UHD电视或4K监视器等高分辨率（HR）显示器的普及，YouTube已经支持8K UHD视频服务（7680×4320），对更高分辨率的视觉内容（视频）的需求也在增长。）技术与此趋势密切相关，因为它们可以将传统低分辨率（LR）视频的空间分辨率扩大到高分辨率。然而，为了从感知质量的角度将视频正确地呈现在较大尺寸的显示器上，空间分辨率的提高必然导致时间分辨率或帧速率的提高。随着空间分辨率的提高，人的视觉系统（HVS）对视频的时间失真变得更加敏感，并趋向于容易感知HR视频中的运动抖动（不连续运动）伪像，从而降低了感知质量（Daly 2001）。为此，必须使帧率从低帧率（LFR）增加到高帧率（HFR），才能使HR视频在视觉上令人愉悦。这就是UHD（超高清）广播标准为4K（3840×2160）和8K（7680×4320）UHD视频（ETSI 2019）指定60 fps和120 fps（每秒帧）背后的原因，而30 fps常规2K（FHD，1920×1080）视频。
在这里插入图片描述
因此，为了将旧的2K 30 fps视频转换为可以在4K UHD显示器上观看的真正的4K 60 fps视频，视频帧插值（VFI）与SR一起必不可少。尽管如此，对VFI和SR进行了深入研究，但分别在low level task任务中进行了研究。现有方法都无法同时解决VFI和SR问题，这是一项复杂的任务，必须同时提高空间和时间分辨率。在本文中，我们首先提出一种称为FISR的联合VFI-SR方法，该方法可以将2K 30 fps视频直接转换为4K 60 fps。我们采用了一种新颖的训练策略，该策略可处理每次迭代的多个连续视频帧样本，同时具有一种新颖的时间损失，可在这些连续样本上施加时间正则化。该方案是通用的，可以应用于任何与视频相关的任务。为了处理4K UHD的高分辨率，我们提出了一种多尺度结构，该结构采用了适用于所有尺度水平的新型时间损耗。

我们的贡献可以总结如下：
•我们首先提出一种联合VFI-SR方法，该方法可以同时提高视频的时空分辨率。
•我们提出了一种新颖的多尺度时间损失，可以有效地以较高的预测精度规范化视频帧的时空分辨率增强。
•我们所有的实验均基于4K 60 fps视频数据，以说明实际的应用场景。

Related Work

Video Super-Resolution

SR的目的是恢复丢失的LR图像细节，以重建其HR版本。 SR被广泛用于医学成像（Yang等人，2012），卫星成像（Cao等人，2016）和人员重新识别的预处理（Jiao等人，2018）等各个领域。随着基于深度学习的方法在计算机视觉领域的最新成功，已经开发了各种单图像SR（SISR）方法（Dong等人2015; Lim等人2017; Lai等人2017; Zhang等人。 2019），通过仅关注给定LR图像的空间信息来提高空间分辨率，如图2（a）所示。
另一方面，视频SR（VSR）可以另外利用连续LR帧的时间信息来增强性能。如果将SISR独立应用于每个帧以生成VSR结果，则输出的HR视频往往缺乏时间一致性，这可能会导致闪烁的伪影（Shi等人2016）。因此，VSR方法利用了如图2（b）所示的其他时间关系，实现这一目标的流行方法包括简单地连接顺序输入帧或采用3D卷积滤波器（Caballero等人2017; Huang，Wang和Wang 2017; Jo等人2018; Li等人2019; Kim等人2019）。然而，由于输入的简单级联，其中在网络的较早部分中同时处理许多帧，因此这些方法往往无法捕获绝对运动位移较大的大型运动或多个局部运动。此外，使用3D卷积滤波器会导致昂贵的计算复杂性，而当整个网络容量受到限制时，这可能会导致VSR性能下降。为了克服这个问题，各种方法都利用了运动信息（Makansi，Ilg和Brox 2017; Wang等人2018; Kalarot和Porikli 2019），特别是光流来提高预测精度。在使用运动信息时，Haris等人。 Haris，Shakhnarovich和Ukita（2019）提出了一个迭代细化框架，通过使用循环编码器-解码器模块来组合LR帧的时空信息。值得指出的是，尽管具有448×256分辨率的Vimeo-90K（Xue et al.2017）是VSR中使用的相对高分辨率基准数据集，但仍不足以代表最新的UHD视频数据的特征。此外，上述VSR方法均未同时生成HFR帧。
在这里插入图片描述

Video Frame Interpolation

VFI的目标是通过适当地组合两个原始连续输入帧来生成高质量的不存在的中间帧，如图2（c）所示。 VFI在视频处理中非常重要，因为观看者倾向于对HFR视频感到视觉舒适（Mackin，Zhang和Bull 2015）.VFI已被应用于慢动作生成（Jiang等人2018）等各种应用中，帧频提高了。转换（FRUC）（Yu和Jeong 2019），新颖的视图合成（Flynn等人2016）和视频流中的帧恢复（Wu等人2015）。 VFI的主要困难是考虑物体快速运动和遮挡问题。
幸运的是，已经通过各种基于深度学习的方法对VFI进行了积极研究，并在LR基准上显示了令人印象深刻的结果（Niklaus和Liu 2018; Liu等2019; Bao等2019）。 Niklaus等。（Niklaus and Liu 2018）提出了一种上下文感知的帧合成方法，其中在进入GridNet架构进行增强的帧插值之前提取并扭曲每个像素的上下文图。（Liu et al.2019）提出了一种循环一致性损失，不仅迫使网络增强内插性能，而且还更好地利用了训练数据。 Bao等。（Bao et al.2019）提出了DAIN，该DAIN通过利用深度信息共同优化五个不同的网络组件，以产生高质量的中间帧。
但是，这些方法在高分辨率视频时面临困难，在高分辨率视频中，绝对运动往往很大，通常会超出网络的接收范围，从而导致插值帧的性能下降。 Meyer等。（Meyer et al.2015）首先注意到HR视频的VFI方法的弱点，并采用了手工制作的基于相位的方法。在基于深度学习的方法中，IM-Net（Peleg et al.2019）提出了一种深度CNN，以涵盖快速运动，以便它可以处理VFI以实现更高分辨率（1344×768）的输入。但是，他们的测试方案仍仅限于低于2K视频的空间分辨率，这对于4K / 8K电视显示器来说是不够的。
另一方面，Ahn等。（Ahn，Jeong和Kim 2019）首先提出了一种基于任务的混合网络，该网络基于从粗到精的方法快速，准确地对4K视频进行VFI。为了降低计算复杂度，他们首先在时间插值（TI）之前对两个HR输入帧进行下采样，然后生成插值帧的LR版本。然后，空间插值（SI）将LR插值帧的双三次上采样版本与原始的两个HR输入帧连接起来，以合成最终的VFI输出。尽管他们的网络执行时空分辨率的两步增强，但应注意的是，他们利用了原始4K输入帧的优势，其最终目标是4K视频的VFI（而非联合VFI-SR）。这与我们共同优化VFI-SR（直接从LR-LFR输入生成HR-HFR输出）的问题不同。
在本文中，我们处理联合VFI-SR（特别是对于FRUC应用），以生成具有更高空间分辨率的高质量中间帧，从而可以将2K 30 fps视频直接转换为4K 60 fps视频，称为帧插值和超级分辨率（FISR）。这是一个新问题，以前没有考虑过。

Proposed Method

Input/Output Framework

常见的VFI框架涉及从两个连续帧的输入中预测单个中间帧，如图2（c）所示。在这种情况下，最终的HFR视频由内插帧之间交替放置的原始输入帧组成。但是，由于原始输入帧（LR）和预测帧（HR）的空间分辨率不同，因此该方案无法直接应用于联合VFI-SR，并且如果我们希望将输入帧插入预测帧中，则会存在分辨率不匹配的情况。框架。因此，我们提出了一种新颖的输入/输出框架，如图2（d）所示，其中从三个连续的LR LFR帧中预测了三个连续的HR HFR帧。也就是说，对于每三个连续的LR输入帧，仅执行SR来产生中间的HR0输出帧，而执行联合VFI-SR来合成其他两个端帧（HR-∆t / 2和HR + ∆t / 2 ）。随着滑动时间窗口的每帧移位，当前时间窗口中的生成帧〖HR〗(-∆t/2)和〖HR〗(+∆t/2)将与前一个时间窗口中的〖HR〗(+∆t/2)和下一个时间窗口中的〖HR〗(-∆t/2)产生重叠。如果对两个重叠的帧进行平均会生成模糊的帧，则为简化起见，使用后面滑动窗口中的帧。

Temporal Loss

我们提出了一种新颖的Temporal Loss，用于视频序列网络训练中的正则化。 FISR的训练样本由五个连续的输入帧组成，而不是在三个数据输入/预测帧的每个小批量数据上反向传播误差，而是由五个连续的输入帧组成，因此包含三个连续的stride为1的数据采样和stride为2的一个数据采样.通过考虑这些多个数据样本之间的关系，在时间上对网络训练进行更多的正则化，以获得更稳定的预测。这种多数据样本训练策略的详细架构如图3所示。
如图3所示，我们将输入帧设为xt，其中t是时间实例。然后，一个训练样本由五个帧组成：{x-2∆t，x−∆t，x0，x + ∆t，x + 2∆t}，每个训练样本包括三个stride为1的采样，如：{x−2∆t，x−∆t，x0}，{x−∆t，x0，x + ∆t}，{x0，x + ∆t，x + 2∆t} ，每一个时间窗口的中心分别在−∆t，0和+ ∆t。它们对应的预测由p表示，其中w表示第w个时间窗口，而其ground truth frames由yt给出。

Temporal Matching Loss

由于每个训练样本中的滑动时间窗口，存在两个时间实例-Δt/ 2和+Δt/ 2，其中预测帧在不同的时间窗口w上重叠。 Temporal Matching Loss会迫使这些重叠的帧彼此相似，形式上由下列公式给出
在这里插入图片描述
我们还考虑了一个额外的数据样本，该样本的时间stride为2，位于训练样本{x-2∆t，x0，x + 2∆t}的中心为0，这反过来会产生{p−∆t，p0，p + ∆t }，如图3中的黄色框所示。对于第2步的预测，存在三个重叠的时间实例，这些跨度与第1步数据样本的预测相重叠。因此，步幅2的时间匹配损耗由下式给出：
在这里插入图片描述

Temporal Matching Mean Loss

为了进一步规范化预测，我们还将L2损失强加给步长1的重叠帧的均值和重叠时间点处的相应地面真实情况，如下所示：
在这里插入图片描述

Temporal Difference Loss

为了在预测帧中增强时间一致性，我们设计了一个简单的时间差异损失LTD，应用于所有预测集，其中连续的预测帧之间的差异必须和连续的ground truth帧相似，对于根据时间跨度1的数据样本进行的预测，损失由下式给出：
在这里插入图片描述

Reconstruction Loss

最后，重建损失LR是所有预测帧与相应地面真实情况之间的L2损失。首先，对于来自时间跨度1的数据样本的预测，损失为
在这里插入图片描述
其中不同类型的λ是要根据经验确定的相应损失的加权参数。对于每个小批量的训练样本，一次更新CNN参数，该样本由四个数据样本（三个步幅1样本和一个步幅2样本）组成。

Network Architecture

我们设计了一个3级多尺度网络，如图4所示，这有利于处理HR帧中的大运动，同时在较低尺度水平上具有扩大的有效接收场。在level1和2中，使用双三次滤波器将输入帧分别从原始比例的level3做4倍和2倍下采样，并且所有比例都采用相同的基于U-Net的体系结构。通过多尺度结构，可以在最低尺度级别上生成粗略预测，然后将其连接起来，并在后续尺度级别上逐步完善。公式（8）的total loss分别在三个比例级别l∈{1、2、3}下使用加权参数λl进行计算，即L =。
此外，为了有效地处理较大的运动和遮挡，双向光流图和相应的扭曲帧与输入帧堆叠在一起。我们使用预训练的PWC-Net（Sun等人，2018年）获得光流{f−∆t→0，f0→−∆t，f0→+ ∆t，f + ∆t→0}，并且级联流图{f−∆t / 2→0，f−∆t / 2→−∆t，f + ∆t / 2→+ ∆t，f + ∆t / 2→0}由以下线性运动假设近似各自的流量图（例如f−∆t / 2→0 = 1/2·f−∆t→0）。从近似流估计相应的向后弯曲帧{g−∆t / 2→0，g−∆t / 2→−∆t，g + ∆t / 2→+ ∆t，g + ∆t / 2→0} ，并且还与输入帧串联在一起。
在这里插入图片描述

Experiment Results

Experiment Conditions

Implementation Details

所有卷积滤波器的内核大小均为3×3，在U-Net架构中，输出通道c设置为64。最终的输出通道对于两个VFI-SR帧是6，对于单个VFI-SR帧是3。当对PWC-Net进行RGB帧训练时，在RGB域中获得了流ft和扭曲帧gt，并将扭曲帧转换回YUV以便与输入帧连接。对于所有实验，针对2K 30 fps到4K 60 fps的应用，空间分辨率和帧速率的比例因子均为2，我们在实现中使用Tensorflow 1.13。

Data

我们收集了21288帧的4K 60 fps视频，其中包含112个场景，这些场景来自YouTubeTM，对象和摄像机的动作各不相同。在收集的场景中，我们特别选择了88个用于训练的场景和10个用于测试的场景，这两个场景均包含大型物体或摄像机运动。在10个要测试的场景中，像素位移范围逐帧达到[-124，109]像素，并且所有10个场景在输入的2K视频帧内至少包含[-103，94]像素位移，定量演示数据中包含的大运动。此外，每2K帧的每个场景的平均运动幅值范围在5.61到11.40像素（逐帧）之间，所有10个场景的总平均值为7.64像素。
为了创建一个训练样本，我们在9个连续帧中的相同位置随机裁剪了一系列192×192 HR补丁。在图3所示的5帧输入设置下，第2个（−3∆t / 2）至第8个（+ 3∆t / 2）帧用作4K基本实况HR HFR帧，而第5个奇数帧（−2∆t，−∆t，0，+ ∆t，将+ 2∆t）按三次三次缩减至96×96的大小，以用作LR LFR输入帧进行训练，如图3中的绿色和蓝色框所示。要获得各种训练样本，每个训练样本的提取步幅为10。这样做，我们在开始训练过程之前总共构建了10,086个训练样本，以避免加载4K所需的繁重训练时间每次迭代时都保留帧。
在测试阶段，使用了由10个不同场景和5个连续LR（2K）LFR（30 fps）帧组成的测试集，其中完整输入了完整的2K帧，并测量了平均PSNR和SSIM。总共90个（= 3（两个VFI-SR和一个SR帧）×3（五个连续输入帧中的三个滑动窗口）×10（十个场景））预测帧。输入帧和地面真帧在YUV通道中，并且性能也在YUV颜色空间中测量。

Training

为了进行训练，我们采用了Adam优化器（Kingma和Ba 2015），其初始学习率为10−4，在总共100个时期的第80和90个时期减少了10倍。权重使用Xavier初始化进行初始化（Glorot和Bengio 2010），并且最小批大小设置为8。公式（8）的参数根据经验设置为λR= 1等，必须谨慎设置L =中多尺度损失的加权参数，因为对于某些组合，例如λ1= 1/3，λ2= 1/3和 λ3= 1/3，与单尺度体系结构相比，性能下降。我们发现必须对较低的层次进行更多的强调，这与先前的工作是一致的，并且根据经验，最佳组合是λ1= 4，λ2= 2和λ3=1。这是因为从头开始有一个精确的重构是对于以后的级别很重要。
在这里插入图片描述

Ablation Study

Temporal Loss

我们对时间损失的组成部分进行了消融研究，以分析其影响。表1列出了预测的VFI-SR帧和用于深度分析的SR帧的平均PSNR / SSIM性能。该实验是在不使用光流ft和扭曲帧gt输入的情况下使用多尺度体系结构进行的，以仅检查时间损失的影响，而无需任何其他运动提示。此外，我们在表2中对单尺度（而非多尺度）U-Net架构的时间损失进行了另一项消融研究，以研究时间损失在更简单的CNN架构中的影响。同样在此实验中，未使用ft和gt输入。
首先，SR帧的整体PSNR / SSIM值高于表1和表2中的VFI-SR帧的PSNR / SSIM值，因为VFI-SR是一项更复杂的联合任务，必须执行时空放大同时，而对于SR，只有空间分辨率得到提升。其次，在两个表的（e）列中使用时间步长为2的与样本{x-2Δt，x0，x +2Δt}相关的损耗L和L的使用，迫使FISRnet产生更高的重构精度通过分别在表1和表2中的（d）列上分别以0.48 dB和0.53 dB的增益有效地规范时间关系。在两个表中，从（d）到（e）列的增益为0.38 dB，也可以观察到SR的相当大的性能增益。通过与表1和表2的列（f）一起另外包含LTM2（具有时间跨度2帧的时间匹配损耗），通过与列比较，联合VFI-SR分别获得了0.51 dB和0.59 dB的PSNR增益。通过和（d）列的比较。
尽管最终的时间损失通过实施时间正则化改善了VFI-SR帧的预测准确性，但是在两种情况下，在预测的VFI-SR和SR帧之间都存在性能折衷。时间损失在时间意义上增加了正则化，但代价是降低了SR预测的准确性。但是，我们专注于增强VFI-SR的联合性能，以提高最终视频结果的整体时间一致性。图5显示了两种架构中有和没有时间损失的VFI-SR帧的视觉比较。很明显，在有或没有多尺度结构的情况下，合并时间损失都有助于增强对象的边缘细节和结构构造。
在这里插入图片描述

Network Architecture

如表3所示，对架构组件进行了另一项消融研究。我们通过从最终训练的FISRnet中排除多尺度特征，光流（ft）和翘曲帧（gt）来设置基线网络，而不会改变时间损失。从基线网络开始，从顶行到底行累计添加每个组件。时间损耗再次有效，在PSNR中显示出0.44 dB的性能增益。多尺度组件还有助于提高性能，因为可以在具有较大接收场的U-Net的较低层中有效地处理大型运动，从而指导较高层的网络从此结构的粗略预测结果中更有效地学习。
尽管光流信息会导致PSNR的边际性能提高0.06 dB，但另外提供变形图像作为运动信息对VFI-SR极为有利，如果同时叠加光流和变形图像，则PSNR增益为0.67 dB输入帧在多尺度架构中具有时间损耗。此外，FISRnet的组件提高了VFI-SR帧的定性性能，如图6所示。具有所有组件的最终FISRnet能够还原船上的小写字母，并捕获球和球的形状和图案和手指在图6中。

Comparison with Other Methods

由于没有现有的VFI-SR联合方法，因此我们将现有的VFI和SISR方法与4K 60 fps测试集进行级联实验。级联连接可以有两种变化，如图7所示。在图7（a）所示的第一个变体中，可以先执行SR以扩大LR帧的空间分辨率，从而得到HR-LFR帧，然后可以对放大的帧执行VFI以获得HR中间帧，用于最终生成HR-HFR视频输出。至于图7（b）所示的第二种变化，可以首先产生LR中间帧以提高时间分辨率，从而得到LR-HFR帧，然后可以对所有LR帧执行SR以生成最终的HR。 -HFR视频输出。对于比较方法，我们选择最新的CyclicGen（Liu等人，2019）作为VFI方法，并级联EDSR（Lim等人，2017）或LapSRN（Lai等人，2017）作为SR方法。对于所有方法，我们使用作者提供的官方代码。

定量比较。表4中给出了FISRnet和级联方法的定量比较。对于级联顺序，执行VFI后再执行SR（VFI→SR）似乎通常显示出更好的性能，因为从VFI方法的角度来看，它更容易沿2K LR帧（VFI→SR）的时间演变捕获运动，而不是沿放大的4K HR帧（SR→VFI）捕获运动，后者绝对运动位移较大。我们提出的FISRnet优于VFI-SR帧的四个级联组合，其PSNR增益至少为1.42 dB。由于在VFI-SR和SR性能之间进行了权衡，因此FISR的基准架构（FISR-Baseline）显示出更好的SR性能，比EDSR高0.92 dB。

定性比较。 VFI-SR帧的定性比较在图1和图8中给出。FISRnet准确地重建具有逼真的纹理和锐利边缘的对象。我们的方法能够捕获水波的纹理，并在图1和图8中的球和船上重建小写字母。此外，执行VFI和SR可以产生更好的结构上下文（图2的第5列和第5列）。图8），但通常会产生模糊的边缘，而SR后跟VFI会恢复较锐利的边缘细节（图8中的第4列和第6列），但代价是结构重建的准确性较低。在后一种情况下，由于高分辨率（4K）输入，运动位移似乎已经超过了网络（Liu等人，2019）可以处理的最大运动。
在这里插入图片描述

Runtime Evaluation

FISRnet的测试运行时间平均为2.73秒，其中一个输入测试样本包含三个2K（1920×1080）分辨率帧，并使用NVIDIA TITAN一次生成两个4K（3840×2160）VFI-SR帧和一个4K SR帧。 Xp GPU。

Conclusion

在本文中，我们首先定义了一个新的联合VFISR问题，即从LR LFR输入帧直接合成高质量的HR HFR帧，该问题可用于将2K 30 fps视频直接转换为4K 60 fps视频。这是为优质显示器生成高质量视觉内容的非常有用的方法。但是，联合VFI-SR是一项艰巨的任务，其中必须同时执行时空放大，以产生不存在的放大帧。我们提出了一个称为FISRnet的三级基于多尺度U-Net的网络，以处理2K分辨率输入的高分辨率数据中存在的大运动，该运动通过所建议的时间损失和多数据样本训练策略进行训练。以获得更稳定的时间正则化。应用时间损失可利用多个数据样本之间存在时间关系，有助于FISRnet锐化边缘并构造各种对象的正确形状。此外，时间损失和多数据样本训练可以应用于任何与视频有关的视觉任务。我们在实验部分通过各种消融研究分析了时间损失的影响和网络体系结构的组成部分，还证明了我们的FISRnet优于现有的最新VFI和SISR方法的级联。官方Tensorflow代码可从https://github.com/JihyongOh/FISR获得。