Boosting the Performance of Video Compression Artifact Reduction with Reference Frame Proposals and

mytzs123

已于 2022-08-01 14:31:59 修改

阅读量1.1k

点赞数 2

分类专栏：视频编码相关参考论文文章标签：压缩视频质量增强

于 2022-07-02 21:06:56 首次发布

本文链接：https://blog.csdn.net/mytzs123/article/details/125571385

版权

视频编码相关同时被 2 个专栏收录

40 篇文章 34 订阅

订阅专栏

参考论文

7 篇文章 0 订阅

订阅专栏

Abstract

人们提出了许多基于深度学习的视频压缩伪影去除算法，用于从低质量的压缩视频中恢复高质量的视频。最近，人们提出了利用多个相邻帧作为参考帧来挖掘时空信息的方法。然而，这些后处理方法直接利用相邻帧，而忽略了视频本身的信息，这些信息是可以利用的。在本文中，我们提出了一种有效的参考帧建议策略，以提高现有多帧方法的性能。此外，我们引入了基于快速傅立叶变换（FFT）的损耗，以进一步提高恢复的有效性。实验结果表明，与最先进的方法相比，我们的方法在MFQE 2.0数据集上实现了更好的保真度和感知性能。我们的方法赢得了第1和第2条赛道，并在2021 NTIRE重压缩视频质量增强挑战赛第3条赛道中排名第2。

1. Instruction

为了解决存储和传输多媒体数据时存储成本高、带宽有限的问题，有损压缩算法通常用于压缩多媒体数据（如图像、音频和视频）。这些不可逆压缩算法通常会引入压缩伪影，降低体验质量（QoE），尤其是视频。因此，视频压缩伪影消除，旨在减少引入的伪影并恢复有损压缩视频的细节，成为多媒体领域的一个热门话题[11，28，7]。随着深度学习在文本、图像和视频处理方面的成功，许多基于深度神经网络的压缩伪影去除工作已经出现，并取得了显著的性能改进。

这项低级任务的快速进展可分别归因于深度神经网络[8、37、15、4、12]、各种视频压缩先验[6、14、33]和额外的时间信息[34、18、29、11、28、19、7]。其中，[8、15、37]设计用于去除JPEG压缩伪影，可以通过单独恢复每个帧来用于视频。[6、33、14]是基于I/P/B帧用不同的策略进行压缩，并应通过单个模型进行恢复这一事实而提出的。这些方法利用单个帧作为输入，但忽略了与相邻帧的时间依赖性。为了弥补这一缺陷，[34，11]利用两个运动补偿最近峰值：质量帧（PQF）作为参考帧，[18，19]开发深度卡尔曼滤波网络并从之前的帧捕获时空信息，[28，7]分别采用非局部ConvLSTM和可变形卷积，捕捉多个相邻帧之间的依赖关系。然而，仅使用前面的帧忽略了以下信息；使用附近的一对PQF进行恢复会导致其他一些帧的高质量细节丢失（如[28]中所述）。最近的方法[28，7]绕过了这个问题，但直接利用多个相邻帧作为参考帧。

本文总结了我们为NTIRE 2021高压缩视频质量增强挑战而开发的方法。我们制定了一种有效的参考框架建议（缩写为RFP）策略，作为一种增量技术，用于在该任务中包含多个框架的方法。RFP自然适用于[28，7]。考虑到[28]具有严重的计算和内存成本，并且很难扩展到用于挑战的非常深入的模型，我们在竞争期间将RFP应用到另一种最先进的方法STDF[7]。此外，如图1所示，过度平滑对增强帧的性能影响很大。STDF增强后，细节和纹理几乎被删除。过平滑现象表明高频细节被删除[4、5、20、17]，因此我们引入了一个基于快速傅立叶变换（FFT）的额外优化目标来监督频域信息的学习。也就是说，我们利用空间和频率监控信号来训练模型并补充缺失的细节。实验表明，RFP策略和FFT损耗都能显著提高性能，将这两种技术结合起来可以进一步提高性能。此外，我们在竞赛中采用了基于[36，9]的深度质量增强（QE）模块。总之，这项工作的贡献如下：

1.我们通过利用相邻的压缩帧，提出了一种有效的参考帧建议策略，可直接用于现有的多帧方法。2.在本任务中，我们引入了基于FFT的损耗，以补充缺失的高频细节。
3.我们为QE模块采用了一种有效的架构，该架构可以在类似的浮点运算中执行出色的结果，并且可以扩展到非常深的模型。
4、我们在MFQE 2.0数据集上进行了广泛的实验，取得了最先进的性能。

2. Related Work

在本节中，我们回顾了基于深度学习技术的压缩伪影减少的相关工作。在ImageNet[21]上的深度学习取得成功后，在这项长期的低级任务中提出了许多神经网络方法。根据领域知识的利用率和输入帧的数量，现有方法可分为三类：基于图像的方法、单帧方法和多帧方法。

Image-based Approaches

提出了这些方法来去除图像压缩伪影[8、37、15、10、35、4、13、16、39]。当应用于压缩视频时，这些方法以单个帧为输入，并在不了解视频压缩算法的情况下对其进行增强。例如，ARCNN[8]是第一个提出用于减少JPEG压缩伪影的工作。有四个卷积层，没有任何池或完全连接的层。DnCNN[37]是另一种典型的方法，它利用具有批量归一化和剩余学习的深层网络。最近，[35，4]通过小波/频域信息提高视觉质量。[16，39]利用非局部机制在低级别任务中进行恢复。

Single-frame Approaches

其中一些方法[25、6、33、32]利用了视频压缩算法中不同编码模式的知识，例如I /P /B帧。然而，这些方法忽略了帧序列中的时间信息，并且在处理某些时间噪声（例如蚊子噪声、边缘浮动和闪烁）时无效。具体而言，DS-CNN[33]和QE-CNN[32]提出了两个独立的模型，分别负责帧内编码和帧间编码模式。

Multi-frame Approaches

[18，19]将该视觉任务建模为卡尔曼滤波过程，递归增强帧序列，并从增强的前一帧捕获时间信息。[18，19]进一步将压缩码流中的量化预测残差合并为强先验知识。然而，仅利用前一帧的时间信息是不完整的，因为B帧是通过前一帧和后一帧压缩的。考虑到视频中压缩帧的质量波动很大，[34，11]提出了MFQE来与附近的高质量帧建立时间依赖关系。在MFQE系列方法中，首先使用分类器检测PQF，然后在没有参考帧的情况下增强PQF，而非PQF将这些PQF作为参考帧，用光流补偿参考帧，并利用慢速融合策略捕捉空间信息以及来自PQF的时间信息。后来，[29]提出了一种改进的卷积LSTM。由于运动流的限制以及观察到在附近的低质量帧中也存在高质量面片[28，7]利用非局部机制或可变形卷积网络来捕捉多个相邻帧中的时空相关性。

Difference between Our Method and the Existing Multi-frame Ones

从多帧中挖掘时空信息成为提高压缩视频质量的一种趋势。然而，最先进的方法以一种幼稚的形式选择参考框架。在我们的方法中，在初始步骤中引入了一种用于参考框架建议的引导技术。此外，为了弥补该任务中的过平滑现象，开发了一种基于FFT的附加损耗来帮助恢复高频细节。此外，我们在QE模块中使用了基于[36，9]的非常深入的模型。

3. Method

对于多帧方法，大多数方法可以归纳为三个基本组件：参考帧建议（RFP）模块、时空特征融合（STFF）模块和质量增强（QE）模块。最近，多框架方法专注于改进STFF模块，但在RFP模块中仍然采用了简单的参考框架建议策略。因此，在本文中，我们更加关注其他模块和损耗函数。

3.1. Reference Frame Proposa

视频压缩伪影减少的目标是从原始帧（地面实况）Yt的压缩帧Xt生成高质量帧ˆYt，其中Xt∈ RC×H×W，C是单帧的通道数，H和W是输入视频的宽度和高度。在RFP模块中，我们需要从压缩序列X={X1，X2，···，Xt，···，Xt}中选择2R帧作为目标帧Xt的参考帧{Xt+t1，···，Xt+t2R}，这里，第一个R帧{Xt+t1，···，Xt+tR}是前面的目标帧Xt，{Xt+tR+1，···，Xt+t2R}的帧是以下帧，R是一个方向上的参考帧数。为了简单起见，我们在下面以前面的帧为例。

假设{Xt+t1，…，Xt+tR}是一个有序序列，并且t1<···<tR<0。然后，RFP的规则可以描述如下：

1）作为初始步骤，我们首先使用HM解码器从HEVC比特流中提取元数据。轨道1/2和轨道3中的编码器配置不同。因此，我们从比特流中获得具有不同元数据的RFP候选帧。在轨迹1/2中，我们将QP分数低于两个相邻帧的QP分数的帧设置为候选帧。而在轨迹3中，所有I/P帧都被视为候选帧。2）我们固定地选择相邻帧Xt−1通过设置tR=−1.
3）我们递归地将最后一个选定参考帧的下一个前一个候选帧作为新的参考帧，直到有R个参考帧或没有候选帧为止。
4）如果没有更多的候选帧，并且所选参考帧的数量小于R，则用最后一个选定帧重复填充它，直到有R个帧。

3.2. Improved Quality Enhancement Module

QE模块的要点是将STFF模块（即图2中的STDF模块）的融合特征作为输入，并产生残差，该残差与压缩帧一起用于重建增强帧。除了STFF模块外，QE模块是减少伪影的另一个关键因素，因为它需要探索时空信息并补充引入的伪影。为了公平比较，我们在基准数据集MFQE 2.0上使用了相同的QE模块。此外，我们采用了改进的质量增强（IQE）模块，并将其扩展到非常深的版本，以在挑战中获得更好的结果。

IQE模块的框架如图2所示。首先，我们利用了头部和尾部卷积层之间的全局剩余连接。与全局连接并行，该架构由下采样模块、深主干和上采样模块组成。其中，下采样模块由逆像素混洗层[22]和卷积层组成，以降低空间分辨率，上采样模块利用与下采样模块的架构对比。在它们之间，有一个固定残差比例β=0.2的跳跃连接和一堆自适应WDSR-A块[36]（Ada-WDSR-a块），然后是卷积层。

本文利用Ada-WDSR-A块探索压缩帧的互补信息。Ada-WDSR-A-块的结构如图3所示。对于所有Ada WDSR块，比例r设置为4。与WDSR-A块相比，Ada-WDSR块中有两个额外的可学习参数α和β，分别用1和0.2初始化。此外，我们在Ada-WDSR-a-Blocks中重新缩放体流之前部署了通道注意力层[38]。

3.3. Fast Fourier Transformation loss

为了弥补过度平滑造成的高频细节缺失，我们引入了一种基于快速傅立叶变换的新型监控信号作为互补损耗。具体来说，我们将快速傅立叶变换应用于地面真值Yt和QE模块的预测，然后在它们的幅度和相位上使用L1损耗。给定帧X的振幅A（·）和相位P（·）计算如下：

FFT的loss作为补充监督信号，我们的模型在高频细节恢复方面更强大。

4. Experiments

实际上，我们的技术可以用于大多数多帧方法。这里，我们以最先进的STDF[7]为例来评估我们的技术。我们在MFQE 2.0数据集和竞赛提供的数据集上进行了广泛的实验。我们的评估包括三部分：1）NTIRE 2021数据集的消融研究[30]；2）在具有五个QP的MFQE 2.0数据集[11]上与最先进的方法进行比较；3） NTIRE 2021[31]中我们的方法在三个轨道上的性能。

4.1. Datasets and Settings

......

4.2. Implementation Details

在本文中，我们以最先进的STDF方法[7]为基线，按照STDF方案进行实验。为了实现IQE模块与QE模块（STDF中的R3L）类似的触发器，我们实现了一个具有30个Ada WDSRA块的浅IQE模块，Ada WDSR块中的特征在秒内用{32，128，32}个通道实现。第4.3节。4.4. 对于所有数据集，Adam优化器以1e-4的初始学习率训练模型，当完成60%和90%的迭代时，该值减少一半。

4.3. Ablation Study

如4.1提到的，本文中的消融研究实验是在NTIRE 2021的数据集上进行的，设置在赛道1中。实验结果表1，其中，L2loss的结果位于表一的第二行，是基线STDF的性能。如表1中所列。除损失函数和RFP策略外，所有实验均遵循与STDF相同的设置。

Effect of reference frame proposal

在此，我们评估了利用RFP策略的有效性，比较STDF（使用L2损耗）和STDF与RFP策略（使用RFP+L2损耗）之间的性能。结果显示在选项卡的第2行和第3行。1表明，在STDF中使用RFP可以有效地提高性能。图4（a）中的视觉示例还表明，利用RFP可以从相邻2R帧中学习缺失的细节。然后，我们进一步验证了RFP在L1和FFT损耗训练模型上的有效性。如表一中最后一行所示。与L1和FFT损耗（第6行）相比，峰值信噪比/SSIM实现了改进。在MFQE 2.0数据集上也可以得到类似的结论。因此，结果表明，利用RFP可以使模型实现更好的恢复性能。

Effect of FFT loss

考虑到在最近提出的超分辨率任务的低层方法（例如[36，38]）中，L1损耗比L2损耗具有更好的性能，我们研究了L1/L2损耗和FFT损耗的组合，以评估FFT损耗的有效性。与[36，38]中的结论不同，在Tab中的第2行和第4行中，用L2loss训练的模型比L1loss获得更好的性能。1.然而，L1损耗和FFT损耗的组合（第6行）比L2和FFT损耗的组合（第5行）获得更好的结果。除了图1所示的示例外，我们在图4（b）中提供了其他视觉示例，以进一步验证FFT损耗。

4.4. Comparison with State-of-the-art Methods

为了证明我们的方法的优势，我们比较了我们的方法和最先进方法的性能，包括基于图像的[8，37，15]、单帧[25，32]和多帧方法[34，11，7]。为了公平比较，我们的模型是按照STDF的训练方案训练的。视频质量增强方法的结果引用自[11，7]。

Overall enhancement

峰值信噪比/SSIM改善的结果如表2所示。表2中的QE相同。表明该模型遵循STDF中QE模块的相同架构，这意味着相同QE和STDF之间的差异是REP策略和FFT损耗。与STDF相比，相同QE的改进可以视为REP策略和FFT损耗的好处。同时，变量IQE表示带有第3.2节中引入的改进QE模块的模型，其中一个更深入的版本被设计为我们在比赛中使用的最终架构。

从表2我们可以看到，由于利用时空信息的优势，所有多帧方法都优于图像或单帧方法。此外，与所有现有方法相比，具有有效RFP策略和FFT损耗的STDF获得了更好的结果，这进一步证明了过滤输入信息的重要性和L2损耗函数的局限性。此外，IQE进一步提高了基准测试的性能，在QP=37、比STDF高23.9%和25.8%的情况下，实现了令人印象深刻的1.029dB/0.0190 PSNR\/SSIM改善。对于其他QP也可以观察到类似的改进。

Quality fluctuation：质量波动是增强视频整体质量的另一个可观察的测量。帧的剧烈质量波动导致了严重的纹理抖动和体验质量的下降。因此，我们给出了由HEVC压缩的测试序列的两条峰值信噪比曲线，相应的序列由STDF增强，我们的方法如图5所示。与STDF相比，我们的方法在压缩帧上实现了更大的峰值信噪比改善，尤其是对于非QFS，这意味着我们的方法增强的帧质量波动小于STDF。此外，我们还通过每个测试序列的标准差（SD）和峰谷差（PVD）来评估波动，如[28、11、34]所示。峰值信噪比结果如表所示。3，我们的方法仍然取得了令人印象深刻的SD和PVD结果，这意味着我们的方法比其他方法性能更稳定。

Rate-distortion performance：然后，我们评估了我们方法的速率失真，并将其与最先进的方法进行比较。为了便于阐述，我们仅在图7中展示了压缩视频的结果、两种最先进方法（MFQE 2.0和STDF）的增强结果和我们的方法。在这里，由于[7]中缺乏数据，我们没有显示QP=42时的STDF结果。从图7中的曲线可以看出，我们的方法在率失真性能方面优于最先进的方法。根据[11]中的实验，我们还评估了表4中的BDbitrate（BD-BR）降低。这是经过计算的在QP=22、27、32、37和42时，超过五个峰值信噪比结果，而STDF的结果是通过四个QP获得的。MFQE 2.0、STDF、相同QE和IQE的BD-BR降低平均结果分别为14.06%、20.79%、22.49%和25.86%。这些结果表明了我们的技术的优势，并且使用我们的技术的方法可以在相同的比特率下实现更好的QoE。

4.5. Qualitative Comparison

我们还进行了定性比较，并在图6中给出了QP=37时的几个视觉示例。我们可以看到，压缩后的帧遭受了严重的压缩伪影，缺少垂直条纹，阻挡篮球上的伪影）。对于从第三列到第六列的现有方法，增强的面片因过度平滑和时间噪声而失真。然而，我们的方法恢复的细节或纹理比其他方法多得多。与基线STDF相比，我们的方法恢复了更多细节，尤其是高频信息，如锐化边缘。这意味着，通过应用本文介绍的技术，多帧方法可以比原始方法更好地进行恢复

4.6. NTIRE 2021 Challenge

在NTIRE 2021压缩视频质量增强挑战赛[31]中，我们赢得了第1和第2赛道，在第3赛道中排名第2。详细结果包含在表5中。除了上述技术外，性能还依赖于更深入的IQE模块和两种集成策略，即自集成和选通融合。

Deeper IQE module：在竞争实现中，我们使用了具有更多Ada WDSRA块和更广泛功能的IQE模块。具体来说，深度IQE模块中Ada块的特征和块的通道数分别为128和96。因此，Ada-WDSR-A-块中的特征通道数实现为{64，256，64}。

Self-ensemble：在竞争中，我们利用了自集成策略[2]，该策略可以通过具有不同增强操作的多条输入路径来提高恢复。与集成多个模型结果的传统集成策略不同，自集成采用不同增强操作转换的帧，并将这些不同但相关的输出与原始以获得最终预测。在比赛中，利用了八种增强操作进行评估。在实验上，在轨迹1的验证数据集上的实验结果表明，使用基本IQE模块（浅模型）和深度IQE模块（深模型）的STDF可以通过利用自集成实现0.2和0.12 dB的峰值信噪比改善。

Gated Fusion module：由于比赛提供的官方训练数据有限，仅使用这些数据训练的模型很容易受到训练数据偏差的影响。同时，有限的剪辑意味着可以看到的场景很少，但推理中可能会出现许多看不见的模式，这限制了模型的性能。然而，直接使用我们收集的大规模数据将破坏训练数据的原始分布。为了最小化两个数据集之间的偏移量，并从额外的数据中获益，我们提出了一种新的模块来提高管道底部的增强性能。如图8所示，虽然每个模型都有相同的架构（STDF具有更深的IQE），但一个在官方训练集上训练，另一个在从Bilibili和YouTube抓取的额外视频上训练，命名为BiliTube4k。灵感来自[23]，我们利用一堆层输出掩码，并通过生成的掩码聚合两个模型的预测。如图8中间所示，选通融合模块中的掩码M与[0，1]范围内的目标帧具有相同的分辨率。因此，选通融合模块的输出可以公式化为。网络架构的细节可以参考图8。此外，这种选通融合模块的结构可以用于更多的模型。

Other details：在轨道3中，我们使用在轨道1中预训练的模型作为预训练模型，然后在轨道3的训练数据上进行微调，提前停止。对于轨迹2，我们重用并冻结轨迹1中的模型，并在其底部附加ESRGAN[26]。具体来说，我们使用在DIV2K数据集[1]上预训练的ESRGAN，去除像素乱序层，并采用FFT损耗。然后，将在不同数据集上训练的两个ESRGAN与选通融合模块集成，以生成最终的增强帧。

5. Conclusion

在本文中，我们提出了一种通过集成多帧和频域信息来改进现有的视频压缩伪影减少多帧方法的方法，我们的方法是为NTIRE 2021关于高压缩视频质量增强的挑战而开发的，并赢得了第1轨和第2轨以及第3轨中的第2名。通过大量实验，我们表明，与最先进的方法相比，我们提出的参考帧建议策略和FFT损耗都可以实现更高的性能。未来，我们将在其他多帧方法上对我们的技术进行更多验证。

mytzs123

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
Boosting the Performance of Video Compression Artifact Reduction with Reference Frame Proposals and

Abstract人们提出了许多基于深度学习的视频压缩伪影去除算法，用于从低质量的压缩视频中恢复高质量的视频。最近，人们提出了利用多个相邻帧作为参考帧来挖掘时空信息的方法。然而，这些后处理方法直接利用相邻帧，而忽略了视频本身的信息，这些信息是可以利用的。在本文中，我们提出了一种有效的参考帧建议策略，以提高现有多帧方法的性能。此外，我们引入了基于快速傅立叶变换（FFT）的损耗，以进一步提高恢复的有效性。实验结果表明，与最先进的方法相比，我们的方法在MFQE 2.0数据集上实现了更好的保真度和感知性能。我们的方法
复制链接

扫一扫

专栏目录