CVPR2021 | NTIRE2021竞赛“三冠一亚“方案BasicVSR++,Vid4新巅峰29.04dB

编辑:Happy
首发:AIWalker

标题&作者团队

paper: https://arxiv.org/abs/2104.13371
code: https://github.com/open-mmlab/mmediting

本文是南洋理工大学Chen Change Loy团队在视频超分方面最新进展。在BasicVSR的基础上,将双向信息传播进化为网格状双向信息传播,将光流对齐进化为光流引导的形变对齐,同时利用光流对齐与形变对齐各自的优点得到本文的BasicVSR++。该方案在Vid4数据集上达到了史无前例的29.04dB;该方案在NTIRE2021视频超分、压缩视频增强四个赛道取得了“三冠一亚”的优异成绩。实乃视频超分的顶峰!

Abstract

recurrent(递归)架构是视频超分任务的主流框架选择,当前最优的BasicVSR采用双向传播(bidirectional propagation)+特征对齐方式从完整输入视频中有效提取信息。

本文对BasicVSR进行了重设计,提出了二阶网格传播(grid propgation)与光流引导形变对齐。通过采用增强版传播与对齐,所得BasicVSR++可以更有效的利用未对齐视频的空时信息。在相近计算复杂度下,所提BasicVSR++取得了显著的性能提升。比如,在REDS4测试集上,相比BasicVSR,BasicVSR++的性能提升高达0.82dB。

除了视频超分外,BasicVSR++可以很好的泛化到其他视频复原任务,比如压缩视频增强。在NTIRE2021竞赛中,BasicVSR++在视频超分与压缩视频增强竞赛中取得了三项冠军、一项亚军的优异成绩。

本文主要改进有这样两点:

  • 二阶网络传播,见上图Figure1-a。它解决了BasicVSR的两个局限问题:(1) 我们采用网格方式集成更多样的双向传播;(2) 放松了BasicVSR中的一阶马尔可夫属性假设,将二阶连接引入到网络中。这种改进可以改善信息流动,提升模型对于遮挡的鲁棒性;
  • BasicVSR验证了光流对于时序对齐的重要性。然而,光流对于遮挡不够鲁棒。形变对齐在VSR中表现出了优异性能,但难以训练。为充分利用形变对齐的特性并客服训练不稳定问题,我们提出了光流引导形变对齐,见Figure1-b。

Method

framework

上图给出了BasicVSR++的框架示意图,相比BasicVSR,它针对信息传播与对齐进行了两种有效改进。给定输入视频,首先采用残差模块提取对每一帧提取特征;然后这些特征在二阶网络传播机制中进行信息传播,其中对齐部分采用光流引导形变对齐;完成信息传播后,汇聚集成后的特征用于生成输出图像。

Second-Order Grid Propagation

大多现有方案采用单向信息传播,比如RSDN、RRN、FRVSR;只有较少的工作(比如Basic VSR、BRCN)采用双向信息传播进行视频序列中的信息利用。特别的,IconVSR采用耦合传播机制促进信息交互。

受双向传播有效性启发,我们设计了一种网格传播机制,它通过信息传播进行信息重复提炼。更具体地说,中间特征以交替方式进行后向与前向传播。通过这种传播方式,不同帧地信息可以重复访问revisited并用于特征提炼。相比现有传播特征仅利用一次地方案,所提网格传播从完整序列重复提取信息,改进了特征表达能力。

为进一步增强信息传播地鲁棒性,我们对BasicVSR中的一阶马尔可夫属性进行了弱化并采用了二阶连接。通过这种松弛,信息可以从不同的空时位置进行集成,提升了对于遮挡的鲁棒性和有效性。

通过集成上述两个成分,我们按照如下方式设计了二阶网格传播。假设 x i x_i xi表示输入图像, g i g_i gi表示通过多个残差模块提取的特征, f i j f_i^j fij表示在第i时间步长第j传播分支的特征。这里主要针对前向传播进行介绍,反向传播于此类似。

为计算特征 f i j f_i^j fij,我们首先采用光流引导形变对齐方案对 f i − 1 j , f i − 2 j f_{i-1}^j, f_{i-2}^j fi1j,fi2j进行对齐,可以描述如下:
f ^ i j = A ( g i , f i − 1 j , f i − 2 j , s i → i − 1 , s i → i − 2 ) \hat{f}_i^j = \mathcal{A}(g_i, f_{i-1}^j, f_{i-2}^j, s_{i\rightarrow i-1}, s_{i\rightarrow i-2}) f^ij=A(gi,fi1j,fi2j,sii1,sii2)
其中, s i → i − 1 , s i → i − 2 s_{i\rightarrow i-1}, s_{i\rightarrow i-2} sii1,sii2表示从 i i i帧到 i − 1 , i − 2 i-1, i-2 i1,i2帧的光流, A \mathcal{A} A表示光流引导形变对齐。对齐后的特征通过拼接送入到后续残差模块:
f i j = f ^ i j + R ( c ( f i j − 1 , f ^ i j ) ) f_i^j = \hat{f}_i^j + \mathcal{R}(c(f_i^{j-1}, \hat{f}_i^j)) fij=f^ij+R(c(fij1,f^ij))

Flow-Guided Deformable Alignment

EDVR的成功表明:offset的多样性使得形变对齐具有优于光流对齐的性能。然而,形变对齐存在难训练问题,训练不稳定会导致offset发散问题,进而影响模型性能。

为充分利用offset多样性并克服训练不稳定问题,受启发于形变对齐与光流对齐之间的强相关性,我们提出采用光流引导形变对齐,见下图。

在第j次时间补偿,给定特征 g i , f i − 1 g_i, f_{i-1} gifi1 ,光流 s i → i − 1 s_{i\rightarrow i-1} sii1,我们首先对 f i − 1 f_{i-1} fi1进行仿射变换:
f ~ i − 1 = W ( f i − 1 , s i → i − 1 ) \tilde{f}_{i-1} = \mathcal{W}(f_{i-1}, s_{i\rightarrow i-1}) f~i1=W(fi1,sii1)
预对齐特征用于计算offset o i → i − 1 o_{i\rightarrow i-1} oii1与调制掩码 m i → i − 1 m_{i\rightarrow i-1} mii1。不同于直接计算offset,我们计算光流残差:
o i → i − 1 = s i → i − 1 + C o ( c ( g i , f ~ i − 1 ) ) m i → i − 1 = σ ( C m ( c ( g i , f ~ i − 1 ) ) ) o_{i\rightarrow i-1} = s_{i\rightarrow i-1} + \mathcal{C}^o(c(g_i, \tilde{f}_{i-1})) \\ m_{i\rightarrow i-1} = \sigma(\mathcal{C}^m(c(g_i, \tilde{f}_{i-1}))) oii1=sii1+Co(c(gi,f~i1))mii1=σ(Cm(c(gi,f~i1)))
然后采用DCN进行特征对齐:
f ^ i = D ( f i − 1 ; o i → i − 1 , m i → i − 1 ) \hat{f}_i = \mathcal{D}(f_{i-1}; o_{i\rightarrow i-1}, m_{i\rightarrow i-1}) f^i=D(fi1;oii1,mii1)
上述是针对仅进行单个特征对齐设计,因此难以直接用于二阶传播。最简单的方式是按照上述流程对两个特征 f i − 1 j , f i − 2 j f_{i-1}^j, f_{i-2}^j fi1j,fi2j分别处理。然而,这会导致两倍计算量,效率低下;而且,分开处理就会忽视帧间的互补性。因此,我们同时对两帧进行对齐。更具体来说,我们将两个仿射后特征拼接然后计算offset o i − p ( p = 1 , 2 ) o_{i-p}(p=1,2) oip(p=1,2):
o i → i − p = s i → i − p + C o ( c ( g i , f ~ i − 1 , f ~ i − 2 ) ) m i → i − p = σ ( C ( c ( g i , f ~ i − 1 , f ~ i − 2 ) ) ) o_{i\rightarrow i-p} = s_{i\rightarrow i-p} + \mathcal{C}^o(c(g_i, \tilde{f}_{i-1}, \tilde{f}_{i-2})) \\ m_{i\rightarrow i-p} = \sigma(\mathcal{C}(c(g_i, \tilde{f}_{i-1}, \tilde{f}_{i-2}))) oiip=siip+Co(c(gi,f~i1,f~i2))miip=σ(C(c(gi,f~i1,f~i2)))
然后采用DCN进行对齐:
o i = c ( o i → i − 1 , o i → i − 2 ) m i = c ( m i → i − 1 , m i → i − 2 ) f ^ i = D ( c ( f i − 1 , f i − 2 ) ; o i , m i ) o_i = c(o_{i\rightarrow i-1}, o_{i\rightarrow i-2}) \\ m_i = c(m_{i\rightarrow i-1}, m_{i\rightarrow i-2}) \\ \hat{f}_i = \mathcal{D}(c(f_{i-1}, f_{i-2}); o_i, m_i) oi=c(oii1,oii2)mi=c(mii1,mii2)f^i=D(c(fi1,fi2);oi,mi)
Discussion 不同于TDAN、EDVR 等方法直接计算DCN的offset,我们提出了采用光流作为i引导的光流引导形变对齐。这种方式有这样两个优点:(1) 由于CNN具有局部感受野,offset的学习可以通过光流预对齐特征进行辅助;(2) 通过仅仅学习残差,网络秩序学习较小的偏差,降低了常规形变对齐模块的负担。除此之外,DCN中的调制掩码还能起到注意力机制的作用,提供更好的灵活性。

Experiments

为验证所提方法的有效性,我们采用REDS与Vimeo90K这两个广泛采用的数据进行训练。当采用REDS进行训练时,测试集为REDS4,验证集为REDSval4,其余用作训练;当采用Vimeo90K进行训练时,测试集为Vid4、UDM100以及Vimeo90K-T。所有的模型采用两种4x退化方式(BI、BD)进行训练&测试。

训练过程中优化器为Adam,Cosine Annealing学习衰减机制,主网络与光流网络的学习率分别设置为 1 × 1 − 4 , 2.5 × 1 0 − 5 1\times 1^{-4}, 2.5\times 10^{-5} 1×14,2.5×105。总共迭代此输为600K,光流网络的权值在前5000次迭代过程中固定。batch=8,patch=64,损失为Charbonnier。光流网络采用SPyNet,残差模块数量为7,通道数为64.

上表对比了16种不同视频超分方案的性能、参数量以及耗时。从中可以看到:

  • 在所有数据+两种退化方式下,BasicVSR++均取得当前最佳性能;
  • 相比EDSR,BasicVSR++带来了1.3dB的性能提升,同时参数量少35%;
  • 相比IconVSR,BasicVSR++带来了1dB性能提升,同时具有更少的参数量。
  • 相比BasicVSR与IconVSR,下表中的轻量化版本BasicVSR++仍可带来0.82dB与0.57dB的性能提升。

reds4

vimeok-t

vid4

上面几个图给出了所提方案在不同测试集上的视觉效果对比,可以看到:BasicVSR++成功的复原了图像的纹理细节

Ablation Study

上表对比了不同快的影响性分析,可以看到:每个模块都带来一定程度的性能提升,从0.14dB到0.46dB不等。

上图对比了所提传播机制的定性比较。可以看到:二阶传播与网格传播均可以带来显著的细节提升效果

上图对比了不同光流的视觉效果差异以及其对于重建图像的影响。可以看到:

  • 通过仅仅学习光流残差,网络生成的offset与光流具有高度相似性,同时具有可见的差异;
  • 相比基线模型,所提方案可以从多个位置检索信息,提供额外的灵活性,进而产生了更好的重建图像。

上图对比了不同方法的时序一致性。可以看到:

  • 相比滑动窗口方案,递归方案具有更好的时序一致性;
  • 相比EDVR、Basic VSR,BasicVSR++具有更好的时序一致性。

上图对比了所提方案在压缩视频增强方面的效果。可以看到:BasicVSR+陈工的抑制了伪影,生成了具有更高质量的图像。该方案在NTIRE2021视频超分、压缩视频增强四个赛道的比赛中取得了三冠一亚的优异成绩。

推荐阅读

  1. 刷新视频超分新记录28.41dB!同时利用过去和未来隐状态的全局视频超分方案OVSR
  2. 视频超分新标杆 | BasicVSR&IconVSR
  3. 深入理解视频超分中的形变对齐
  4. 计算高效,时序一致,超清还原!清华&NYU 提出 RRN:视频超分新型递归网络
  5. 传统图像处理与深度学习又一结合:时空多尺度非局部自相似集成视频超分
  6. RSDN|性能&速度双超EDVR
  7. CVPR2020|时序分组注意力视频超分
  8. CMDSR | 为解决多退化盲图像超分问题,浙江大学&字节跳动提出了具有退化信息提取功能的CMDSR
  9. CVPR2021|超分性能不变,计算量降低50%,董超等人提出用于low-level加速的ClassSR
  10. Transformer再下一城!low-level多个任务榜首被占领
  11. 46FPS+1080Px2超分+手机NPU,arm提出一种基于重参数化思想的超高效图像超分方案
  12. CVPR2021|将无监督对比学习与超分相结合,国防科大提出了用于盲图像超分的无监督退化表达学习DASR
  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

AIWalker-Happy

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值