BasicVSR: The Search for Essential Components in Video Super-Resolution and Beyond

最新推荐文章于 2024-05-06 15:25:00 发布

AI-NuanBaobao

最新推荐文章于 2024-05-06 15:25:00 发布

阅读量236

点赞数 1

分类专栏：论文阅读文章标签：深度学习人工智能神经网络

本文链接：https://blog.csdn.net/Hzh130727/article/details/131400303

版权

论文阅读专栏收录该内容

1 篇文章 0 订阅

订阅专栏

BasicVSR: The Search for Essential Components in Video Super-Resolution and Beyond

论文出处

Abstract

VSR(Video super-resolution)任务相对于SIR任务来说，其额外信息为时间维度(temporal dimension),如何处理质量与速度之间的平衡，复杂模型(参数量的提升)出现，那是否简单模型能实现其效果(选用核心组件)？

作者将VSR任务分成四个部分：Propagation，Alignment，Aggregation，Upsampling（根据在哪里?)

作者通过现存组件再加微调实现了BasicVSR(如何work？)，更进一步实现了IconVSR（Information-refill mechanism and coupled propagation），如何出发的呢?

Introduction

首先基础是VSR任务的数据即多帧图像之间存在微小误差但却高度相关，为了解决这个问题模型结构越来越复杂。

EDVR采用多尺度可变形对齐模块和多个注意层对不同帧特征进行对齐和集成
RBPN采用多个投影模块(具体指代什么？？)从不同帧(相关)之间聚合特征

作者认为这样做的缺点在于增加了模型复杂度(个人理解感觉??)为了模型的复现和比较，从功能上提出了四个步骤：
在这里插入图片描述

简单解释Propagation就是信息的传播方式，Alignment就是如何将具有微小误差的图像或特征进行对齐，Aggregation就是将对齐图像特征进行聚合

个人感觉如果要验证Alignment部分采用显示flow是否有作用，BasicVSR应该和BRCN作比较，而Propagation部分是否有作用，应该和FRVSR做对比。

作者针对BasicVSR在两方面做了改进，一方面在Aggregation采用information-refill,做法为从关键帧中提取特征添加到网络中做细化，另一方面在Propagation方面采用coupled propagation，其实就是将后向转播的状态作为前向传播的输入(特征混合？？)

Related Work

首先大体上VSR方法分为两部分：基于sliding-window 和 recurrent

先前方法采用基于窗口的显示光流估计来进行空间warp以实现对齐
后来的方法通过复杂结构实现隐式的对齐（TDAN通过可变性卷积在特征层实现对齐；EDVR进一步使用多尺度DCNs实现对齐）
DUF采用动态采样块实现隐式移位估计或者循环结构
RSDN采用recurrent detailstructural block和隐藏层自适应模块来确保鲁棒性和减少误差累计
RRN使用残差映射确保信息流和长期的纹理映射

信息填充机制基于关键帧和非关键帧，二者通常用不同方法处理。IconVSR并没有将二者分开处理，而是通过传播机制将其连接，使得长跨步信息可以相互连接。(具体如何work的呢？？)

Methodology

3.1 BasicVSR

在这里插入图片描述

Propagation

Propagation分为三种：Local Propagation，Unidirectional Propagation，Bidirectional Propagation

Local Propagation：基于窗口的方法，使用窗口的的LR图像进行恢复，远距离帧间信息得不到利用(是否可以用LR图片采用级联来恢复，这里的窗口其实就是指的是选定帧的数量)

验证全局感受野？？

可以看到在未采用滑动窗口的情况下PSNR很大，但是可以看到窗口越小，包含的信息就越少，导致PSNR很低。个人觉得基于这样的方法对于每一个窗口来说，参考帧获得信息其实要比其他帧更多，恢复也更容易实现？

作者认为两端差异大显示了用长序列累计长信息的必要性，单个人觉得如果窗口较小是否有较大的长信息？基于窗口是否有信息的流动？

是否可以在窗口内做合适的但双向传播？窗口的大小如何确定？

Unidirectional Propagation：解决了上述的窗口流动问题，但是这样采用的数据是整个序列(这样会不会增加复杂度)。作者在这里觉得第一帧和最后一帧之间的信息会造成不平衡(是否真的有影响？)采用双向方法会增加复杂度，如果与FRVSR比较，结果来看除了增加参数外速度和效果都要更好(双向的信息更加完全)