-
EDVR: Video Restoration with Enhanced Deformable Convolutional Networks(CVPR 2019)
论文地址:[1905.02716] EDVR: Video Restoration with Enhanced Deformable Convolutional Networks (arxiv.org)
源码地址:EDVR/basicsr/models/archs/edvr_arch.py at master · xinntao/EDVR · GitHub
mmagic/mmagic/models/editors/edvr/edvr_net.py at main · open-mmlab/mmagic · GitHub
文章内容:
1.PCD Align Module(Alignment with Pyramid, Cascading and Deformable Convolution)
针对大位移运动设计金字塔结构和级联细化,使用可变形卷积为核心来构造对齐模块;为了进一步提高对齐结果的准确性,该模块在L1层上多增加了一次对齐操作(浅紫色区域)
2.TSA Fusion Module(Fusion with Temporal and Spatial Attention)
时间注意力:根据相邻帧与参考帧的相似度对不同相邻帧分配不同大小的注意力
空间注意力:在通道维度进行的注意力操作 类似SENet (但代码里做了平均值池化和在最大值池化)
融合网络同样使用了金字塔结构
3.Two-Stage Restoration:级联了一个网络深度较浅的EDVR来细化第一阶段的输出结果
额外trick:self-ensemble 对输入图像进行翻转和旋转,为每个样本生成四个增强输入,然后对每一个都应用EDVR,对还原后的输出进行反变换,取平均值作为最终结果;
-
BasicVSR: The Search for Essential Components in Video Super-Resolution and Beyond(CVPR 2019)
论文地址:
源码地址:
mmagic/mmagic/models/editors/basicvsr/basicvsr_net.py at main · open-mmlab/mmagic · GitHub
文章内容:对分析现有工作归纳出四组件(Propagation/Alignment/Aggregation/Upsampling)基于前两个组件设计了双向传播和特征级的光流对齐(BasicVSR)并将其作为baseline添加两个扩展Information-Refill and Coupled Propagation 得到(IconVSR)
BasicVSR 双向传播(红蓝框)
特征对齐(warp作用在feature map上)
IconVSR 耦合传播(当前帧的前后向传播信息相通)
信息补充(对关键帧补充相邻三帧的信息)
E:extractor C:concat
-
BasicVSR++: Improving Video Super-Resolution with Enhanced Propagation and Alignment
源码地址:
文章内容:在BasicVSR的基础上对Propagation/Alignment进一步改进,提出BasicVSR++
1.Second-Order Grid Propagation
多增加一对前后向传播分支,并遵循IconVSR的耦合改进保留前后向状态的传递支路;
将传播距离由相邻一 帧扩大到相邻两帧;
2.Flow-Guided Deformable Alignment
在预测光流的引导下通过可变形卷积探索多样的对齐结果
补充:光流和偏移的关系参考[2009.07265] Understanding Deformable Alignment in Video Super-Resolution (arxiv.org)
-
VSRT:Video Super-Resolution Transformer
论文地址:[2106.06847] Video Super-Resolution Transformer (arxiv.org)
源码地址:caojiezhang/VSR-Transformer: PyTorch implementation of VSR-Transformer (github.com)
文章内容:用transformer架构完成VSR任务
整体三部分:特征提取(残差块)、Transformer编码器、重建模块(残差块)
1.时空卷积自注意力层STCSA
仅在每帧图像之间进行注意力操作限制了对局部图像信息的利用;
将每帧图像拆分成多个三维块参与注意力计算,达到兼顾时域和空域信息的目的;
2.双向光流的前馈层BOFF
未对齐图像的可利用信息有限;
在前馈层中计算了双向光流的变形结果;
-
RVRT:Recurrent Video Restoration Transformer with Guided Deformable Attention
论文地址:[2206.02146] Recurrent Video Restoration Transformer with Guided Deformable Attention (arxiv.org)
源码地址:RVRT/models/network_rvrt.py at main · JingyunLiang/RVRT (github.com)
文章内容:将视频切分为多个片段,实现片段级的对齐
片段间用光流引导可变形的偏移学习再计算注意力
片段内用3D卷积和MRSTB
Guided Deformable Attention:
总结
EDVR | 利用固定相邻图像帧更大范围信息 | 通过塔式结构扩大感受野 |
BasicVSR/IconVSR/BasicVSR++ | 利用序列的全部时间信息 | 双向传播设计扩大信息搜索范围(串行) |
VSRT | 利用transformer的全局视野(并行) | |
RVRT | 切分片段,片段内并行,片段间串行 |
复杂度对比: