刷新REDS4记录 | 多级视频超分:PP-MSVSR

在这里插入图片描述
作者单位:百度
论文链接:https://arxiv.org/pdf/2112.02828.pdf
代码链接:https://github.com/PaddlePaddle/PaddleGAN
编者言:本文将局部窗口方法与循环方法相结合,在REDS4数据集上超越了BasicVSR++实现了SOTA,代码已开源!

看点

VSR任务的关键是充分利用帧间的互补信息来进行重构。由于来自不同帧的图像具有不同的运动和场景,因此准确对齐多帧并有效融合不同帧一直是VSR任务的关键研究工作。为了利用相邻帧丰富的互补信息,本文提出一个多级VSR架构PP-MSVSR,它采用局部融合模块、辅助损耗和重对准模块逐步细化增强结果。具体来说,

  1. 为了加强特征传播中的跨帧特征融合,在阶段一设计了局部融合模块,在特征传播前进行局部特征融合
  2. 在阶段二引入了一个辅助损失,使传播模块获得的特征保留更多的连接到HR空间的信息
  3. 在三阶段三引入了一个重新对齐模块,以充分利用前一阶段的特征信息

方法

Overview

PP-MSVSR结构如下图所示,该网络结合了滑动窗口VSR和循环VSR的思想,并使用多阶段策略执行恢复任务。
在这里插入图片描述
网络首先从每个视频帧中提取特征,然后通过阶段一的局部融合模块进行相邻帧融合: f L F M i = F L M ( g i − 1 , g i , g i + 1 ) f_{L F M}^{i}=\mathcal{F L M}\left(g_{i-1}, g_{i}, g_{i+1}\right) fLFMi=FLM(gi1,gi,gi+1)后续使用与BasicVSR++相同的结构来融合不同帧和局部合并特征的信息,然后二阶段在每个帧之间传播底层信息。另添加了一个辅助损失,使特征更接近HR空间。三阶段提出一个再对准模块(RAM),它集成了二阶段的偏移量和掩膜,以便于精确的运动补偿: f aligned  i + 1 = R A M ( f 2 i , f 2 i + 1 , o 2 i + 1 → i , m 2 i + 1 → i ) f_{\text {aligned }}^{i+1}=\mathcal{R} \mathcal{A M}\left(f_{2}^{i}, f_{2}^{i+1}, o_{2}^{i+1 \rightarrow i}, m_{2}^{i+1 \rightarrow i}\right) faligned i+1=RAM(f2i,f2i+1,o2i+1i,m2i+1i)其中 o 2 i + 1 → i o_{2}^{i+1 \rightarrow i} o2i+1i m 2 i + 1 → i m_{2}^{i+1 \rightarrow i} m2i+1i为二阶段的偏移量和掩膜。对齐的特征依次进行融合、重构和上采样,获得SR。

局部融合模块

受滑动窗口思想的启发,本文在一阶段设计了一个局部融合模块LFM以加强特征传播中的跨帧特征融合。LFM的目的是让当前帧的特征首先融合其相邻帧的信息,然后将融合后的特征发送到传播模块,如下图所示。
在这里插入图片描述
整体架构为相邻帧可变形卷积然后通道叠加送入残差快进行特征提取。

辅助损失

在二阶段添加了一个辅助损失,使特征更接近HR空间,定义为: A u x L o s s = 1 N ∑ i = 0 N ∥ U p ( f stage  2 i ) − Y g t i ∥ 2 + ε A u x L o s s=\frac{1}{N} \sum_{i=0}^{N} \sqrt{\left\|U p\left(f_{\text {stage } 2}^{i}\right)-Y_{g t}^{i}\right\|^{2}+\varepsilon} AuxLoss=N1i=0NUp(fstage 2i)Ygti2+ε 其中 f stage  2 i f_{\text {stage } 2}^{i} fstage 2i为二阶段传播后的特征, Y g t i Y_{g t}^{i} Ygti为GT。

再对准模块

在使用双向递归神经网络的过程中,经常会有多个相同的对齐操作。为了充分利用先前对齐操作的结果,本文提出了一个再对准模块RAM,它可以利用先前对齐的参数并获得更好的对齐结果,如下图。
在这里插入图片描述
先前的掩模和偏移量用于预对齐特征: f ^ 2 i + 1 = D ( f 2 i + 1 , o 2 i + 1 → i , m 2 i + 1 → i ) \hat{f}_{2}^{i+1}=\mathcal{D}\left(f_{2}^{i+1}, o_{2}^{i+1 \rightarrow i}, m_{2}^{i+1 \rightarrow i}\right) f^2i+1=D(f2i+1,o2i+1i,m2i+1i)其中 D \mathcal{D} D表示变形卷积,然后对预对齐特征与参考帧特征叠加进行卷积输出掩膜和偏移量: o ^ 3 i + 1 → i , m ^ 3 i + 1 → i = Conv ⁡ ( concat ⁡ ( f ^ 2 i + 1 , f 2 i ) ) \hat{o}_{3}^{i+1 \rightarrow i}, \hat{m}_{3}^{i+1 \rightarrow i}=\operatorname{Conv}\left(\operatorname{concat}\left(\hat{f}_{2}^{i+1}, f_{2}^{i}\right)\right) o^3i+1i,m^3i+1i=Conv(concat(f^2i+1,f2i))然后将上述对应的参数相加进行对齐: f ^ aligned  i + 1 = D ( f 2 i + 1 , o 2 i + 1 → i + o ^ 3 i + 1 → i , m 2 i + 1 → i + m ^ 3 i + 1 → i ) \hat{f}_{\text {aligned }}^{i+1}=\mathcal{D}\left(f_{2}^{i+1}, o_{2}^{i+1 \rightarrow i}+\hat{o}_{3}^{i+1 \rightarrow i}, m_{2}^{i+1 \rightarrow i}+\hat{m}_{3}^{i+1 \rightarrow i}\right) f^aligned i+1=D(f2i+1,o2i+1i+o^3i+1i,m2i+1i+m^3i+1i)然后合并对齐的特征以重建恢复的图像。

PP-MSVSR-L

本文还介绍了一个更大的VSR模型,称为PP-MSVSR-L。具体而言,考虑到BasicVSR++是目前VSR任务中最先进的方法,本文增加了特征通道、输入帧和PP-MSVSR模型的主干块和重建块,使新的模型的参数与BasicVSR++一致,从而得到我们的PP-MSVSR-L。实验结果表明,PP-MSVSR-L的性能优于BasicVSR++,达到了最先进的性能。

实验

消融实验

结构组件的消融实验
在这里插入图片描述

定量评估

PP-MSVSR的定量评估数据
在这里插入图片描述
PP-MSVSR-L的定量评估数据
在这里插入图片描述
不过值得一提的是,作者在这里缺少很多的数据对比,比如上图中BasicVSR和BasicVSR++的定量评估与下图中的FLOPs与运算时间对比。

定性评估

REDS4上的定性评估
在这里插入图片描述

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值