CVPR2021 | NTIRE2021竞赛“三冠一亚“方案BasicVSR++，Vid4新巅峰29.04dB

最新推荐文章于 2024-04-26 09:36:31 发布

AIWalker-Happy

最新推荐文章于 2024-04-26 09:36:31 发布

阅读量625

点赞数 1

分类专栏：视频超分深度学习

本文链接：https://blog.csdn.net/huohu728/article/details/116349663

版权

深度学习同时被 2 个专栏收录

30 篇文章 6 订阅

订阅专栏

视频超分

3 篇文章 0 订阅

订阅专栏

编辑：Happy
首发：AIWalker

标题&作者团队

paper: https://arxiv.org/abs/2104.13371
code: https://github.com/open-mmlab/mmediting

本文是南洋理工大学Chen Change Loy团队在视频超分方面最新进展。在BasicVSR的基础上，将双向信息传播进化为网格状双向信息传播，将光流对齐进化为光流引导的形变对齐，同时利用光流对齐与形变对齐各自的优点得到本文的BasicVSR++。该方案在Vid4数据集上达到了史无前例的29.04dB；该方案在NTIRE2021视频超分、压缩视频增强四个赛道取得了“三冠一亚”的优异成绩。实乃视频超分的顶峰！

Abstract

recurrent(递归)架构是视频超分任务的主流框架选择，当前最优的BasicVSR采用双向传播(bidirectional propagation)+特征对齐方式从完整输入视频中有效提取信息。

本文对BasicVSR进行了重设计，提出了二阶网格传播(grid propgation)与光流引导形变对齐。通过采用增强版传播与对齐，所得BasicVSR++可以更有效的利用未对齐视频的空时信息。在相近计算复杂度下，所提BasicVSR++取得了显著的性能提升。比如，在REDS4测试集上，相比BasicVSR，BasicVSR++的性能提升高达0.82dB。

除了视频超分外，BasicVSR++可以很好的泛化到其他视频复原任务，比如压缩视频增强。在NTIRE2021竞赛中，BasicVSR++在视频超分与压缩视频增强竞赛中取得了三项冠军、一项亚军的优异成绩。

本文主要改进有这样两点：

二阶网络传播，见上图Figure1-a。它解决了BasicVSR的两个局限问题：(1) 我们采用网格方式集成更多样的双向传播；(2) 放松了BasicVSR中的一阶马尔可夫属性假设，将二阶连接引入到网络中。这种改进可以改善信息流动，提升模型对于遮挡的鲁棒性；
BasicVSR验证了光流对于时序对齐的重要性。然而，光流对于遮挡不够鲁棒。形变对齐在VSR中表现出了优异性能，但难以训练。为充分利用形变对齐的特性并客服训练不稳定问题，我们提出了光流引导形变对齐，见Figure1-b。

Method

framework

上图给出了BasicVSR++的框架示意图，相比BasicVSR，它针对信息传播与对齐进行了两种有效改进。给定输入视频，首先采用残差模块提取对每一帧提取特征；然后这些特征在二阶网络传播机制中进行信息传播，其中对齐部分采用光流引导形变对齐；完成信息传播后，汇聚集成后的特征用于生成输出图像。

Second-Order Grid Propagation

大多现有方案采用单向信息传播，比如RSDN、RRN、FRVSR；只有较少的工作(比如Basic VSR、BRCN)采用双向信息传播进行视频序列中的信息利用。特别的，IconVSR采用耦合传播机制促进信息交互。

受双向传播有效性启发，我们设计了一种网格传播机制，它通过信息传播进行信息重复提炼。更具体地说，中间特征以交替方式进行后向与前向传播。通过这种传播方式，不同帧地信息可以重复访问revisited并用于特征提炼。相比现有传播特征仅利用一次地方案，所提网格传播从完整序列重复提取信息，改进了特征表达能力。

为进一步增强信息传播地鲁棒性，我们对BasicVSR中的一阶马尔可夫属性进行了弱化并采用了二阶连接。通过这种松弛，信息可以从不同的空时位置进行集成，提升了对于遮挡的鲁棒性和有效性。

通过集成上述两个成分，我们按照如下方式设计了二阶网格传播。假设 $x_i$ 表示输入图像， $g_i$ 表示通过多个残差模块提取的特征， $f_i^j$ 表示在第i时间步长第j传播分支的特征。这里主要针对前向传播进行介绍，反向传播于此类似。

为计算特征 $f_i^j$ ，我们首先采用光流引导形变对齐方案对 $f_{i-1}^j, f_{i-2}^j$ 进行对齐，可以描述如下：
$\hat{f}_i^j = \mathcal{A}(g_i, f_{i-1}^j, f_{i-2}^j, s_{i\rightarrow i-1}, s_{i\rightarrow i-2})$
其中， $s_{i\rightarrow i-1}, s_{i\rightarrow i-2}$ 表示从 $i$ 帧到 $i - 1, i - 2$ 帧的光流, $\mathcal{A}$ 表示光流引导形变对齐。对齐后的特征通过拼接送入到后续残差模块：
$f_i^j = \hat{f}_i^j + \mathcal{R}(c(f_i^{j-1}, \hat{f}_i^j))$

Flow-Guided Deformable Alignment

EDVR的成功表明：offset的多样性使得形变对齐具有优于光流对齐的性能。然而，形变对齐存在难训练问题，训练不稳定会导致offset发散问题，进而影响模型性能。

为充分利用offset多样性并克服训练不稳定问题，受启发于形变对齐与光流对齐之间的强相关性，我们提出采用光流引导形变对齐，见下图。

在第j次时间补偿，给定特征 $g_i， f_{i-1}$ ，光流 $s_{i\rightarrow i-1}$ ，我们首先对 $f_{i-1}$ 进行仿射变换：
$\tilde{f}_{i-1} = \mathcal{W}(f_{i-1}, s_{i\rightarrow i-1})$
预对齐特征用于计算offset $o_{i\rightarrow i-1}$ 与调制掩码 $m_{i\rightarrow i-1}$ 。不同于直接计算offset，我们计算光流残差：
$o_{i\rightarrow i-1} = s_{i\rightarrow i-1} + \mathcal{C}^o(c(g_i, \tilde{f}_{i-1})) \\ m_{i\rightarrow i-1} = \sigma(\mathcal{C}^m(c(g_i, \tilde{f}_{i-1})))$
然后采用DCN进行特征对齐：
$\hat{f}_i = \mathcal{D}(f_{i-1}; o_{i\rightarrow i-1}, m_{i\rightarrow i-1})$
上述是针对仅进行单个特征对齐设计，因此难以直接用于二阶传播。最简单的方式是按照上述流程对两个特征 $f_{i-1}^j, f_{i-2}^j$ 分别处理。然而，这会导致两倍计算量，效率低下；而且，分开处理就会忽视帧间的互补性。因此，我们同时对两帧进行对齐。更具体来说，我们将两个仿射后特征拼接然后计算offset $o_{i-p}(p=1,2)$ :
$o_{i\rightarrow i-p} = s_{i\rightarrow i-p} + \mathcal{C}^o(c(g_i, \tilde{f}_{i-1}, \tilde{f}_{i-2})) \\ m_{i\rightarrow i-p} = \sigma(\mathcal{C}(c(g_i, \tilde{f}_{i-1}, \tilde{f}_{i-2})))$
然后采用DCN进行对齐：
$o_i = c(o_{i\rightarrow i-1}, o_{i\rightarrow i-2}) \\ m_i = c(m_{i\rightarrow i-1}, m_{i\rightarrow i-2}) \\ \hat{f}_i = \mathcal{D}(c(f_{i-1}, f_{i-2}); o_i, m_i)$
Discussion 不同于TDAN、EDVR 等方法直接计算DCN的offset，我们提出了采用光流作为i引导的光流引导形变对齐。这种方式有这样两个优点：(1) 由于CNN具有局部感受野，offset的学习可以通过光流预对齐特征进行辅助；(2) 通过仅仅学习残差，网络秩序学习较小的偏差，降低了常规形变对齐模块的负担。除此之外，DCN中的调制掩码还能起到注意力机制的作用，提供更好的灵活性。

Experiments

为验证所提方法的有效性，我们采用REDS与Vimeo90K这两个广泛采用的数据进行训练。当采用REDS进行训练时，测试集为REDS4，验证集为REDSval4，其余用作训练；当采用Vimeo90K进行训练时，测试集为Vid4、UDM100以及Vimeo90K-T。所有的模型采用两种4x退化方式(BI、BD)进行训练&测试。

训练过程中优化器为Adam，Cosine Annealing学习衰减机制，主网络与光流网络的学习率分别设置为 $1\times 1^{-4}, 2.5\times 10^{-5}$ 。总共迭代此输为600K，光流网络的权值在前5000次迭代过程中固定。batch=8，patch=64，损失为Charbonnier。光流网络采用SPyNet，残差模块数量为7，通道数为64.