【梳理】视频超分辨率研究进展

Smileaaaaaaaaa

已于 2024-02-27 21:22:03 修改

阅读量968

点赞数 34

文章标签：深度学习超分辨率重建

于 2024-02-27 21:18:56 首次发布

本文链接：https://blog.csdn.net/qq_45430996/article/details/136300620

版权

EDVR: Video Restoration with Enhanced Deformable Convolutional Networks(CVPR 2019)

论文地址：[1905.02716] EDVR: Video Restoration with Enhanced Deformable Convolutional Networks (arxiv.org)

源码地址：EDVR/basicsr/models/archs/edvr_arch.py at master · xinntao/EDVR · GitHub

mmagic/mmagic/models/editors/edvr/edvr_net.py at main · open-mmlab/mmagic · GitHub

文章内容：

1.PCD Align Module（Alignment with Pyramid, Cascading and Deformable Convolution）

针对大位移运动设计金字塔结构和级联细化，使用可变形卷积为核心来构造对齐模块；为了进一步提高对齐结果的准确性，该模块在L1层上多增加了一次对齐操作（浅紫色区域）

2.TSA Fusion Module（Fusion with Temporal and Spatial Attention）

时间注意力：根据相邻帧与参考帧的相似度对不同相邻帧分配不同大小的注意力

空间注意力：在通道维度进行的注意力操作类似SENet （但代码里做了平均值池化和在最大值池化）

融合网络同样使用了金字塔结构

3.Two-Stage Restoration：级联了一个网络深度较浅的EDVR来细化第一阶段的输出结果

额外trick：self-ensemble 对输入图像进行翻转和旋转，为每个样本生成四个增强输入，然后对每一个都应用EDVR，对还原后的输出进行反变换，取平均值作为最终结果；

BasicVSR: The Search for Essential Components in Video Super-Resolution and Beyond（CVPR 2019）

论文地址：

[2012.02181] BasicVSR: The Search for Essential Components in Video Super-Resolution and Beyond (arxiv.org)

源码地址：

mmagic/mmagic/models/editors/basicvsr/basicvsr_net.py at main · open-mmlab/mmagic · GitHub

文章内容：对分析现有工作归纳出四组件(Propagation/Alignment/Aggregation/Upsampling)基于前两个组件设计了双向传播和特征级的光流对齐（BasicVSR）并将其作为baseline添加两个扩展Information-Refill and Coupled Propagation 得到（IconVSR）

BasicVSR

双向传播（红蓝框）

特征对齐（warp作用在feature map上）

IconVSR

耦合传播（当前帧的前后向传播信息相通）

信息补充（对关键帧补充相邻三帧的信息）

E：extractor C：concat

超分之BasicVSR_basic vsr-CSDN博客

BasicVSR++: Improving Video Super-Resolution with Enhanced Propagation and Alignment

论文地址：[2104.13371] BasicVSR++: Improving Video Super-Resolution with Enhanced Propagation and Alignment (arxiv.org)

源码地址：

mmagic/mmagic/models/editors/basicvsr_plusplus_net/basicvsr_plusplus_net.py at main · open-mmlab/mmagic · GitHub

文章内容：在BasicVSR的基础上对Propagation/Alignment进一步改进，提出BasicVSR++

1.Second-Order Grid Propagation

多增加一对前后向传播分支，并遵循IconVSR的耦合改进保留前后向状态的传递支路；

将传播距离由相邻一帧扩大到相邻两帧；

2.Flow-Guided Deformable Alignment

在预测光流的引导下通过可变形卷积探索多样的对齐结果

超分之BasicVSR++-CSDN博客

补充：光流和偏移的关系参考[2009.07265] Understanding Deformable Alignment in Video Super-Resolution (arxiv.org)

VSRT：Video Super-Resolution Transformer

论文地址：[2106.06847] Video Super-Resolution Transformer (arxiv.org)

源码地址：caojiezhang/VSR-Transformer: PyTorch implementation of VSR-Transformer (github.com)

文章内容：用transformer架构完成VSR任务

整体三部分：特征提取（残差块）、Transformer编码器、重建模块（残差块）

1.时空卷积自注意力层STCSA

仅在每帧图像之间进行注意力操作限制了对局部图像信息的利用；

将每帧图像拆分成多个三维块参与注意力计算，达到兼顾时域和空域信息的目的；

2.双向光流的前馈层BOFF

未对齐图像的可利用信息有限；

在前馈层中计算了双向光流的变形结果；

RVRT：Recurrent Video Restoration Transformer with Guided Deformable Attention

论文地址：[2206.02146] Recurrent Video Restoration Transformer with Guided Deformable Attention (arxiv.org)

源码地址：RVRT/models/network_rvrt.py at main · JingyunLiang/RVRT (github.com)

文章内容：将视频切分为多个片段，实现片段级的对齐

片段间用光流引导可变形的偏移学习再计算注意力

片段内用3D卷积和MRSTB

Guided Deformable Attention：

总结

EDVR	利用固定相邻图像帧更大范围信息	通过塔式结构扩大感受野
BasicVSR/IconVSR/BasicVSR++	利用序列的全部时间信息	双向传播设计扩大信息搜索范围（串行）
VSRT		利用transformer的全局视野（并行）
RVRT		切分片段，片段内并行，片段间串行

复杂度对比：