Video SR-2

最新推荐文章于 2022-05-24 15:49:51 发布

lpppcccc

最新推荐文章于 2022-05-24 15:49:51 发布

阅读量665

点赞数

分类专栏： Super resolution超分辨率重建

本文链接：https://blog.csdn.net/qq_41332469/article/details/117353974

版权

Super resolution超分辨率重建专栏收录该内容

19 篇文章 13 订阅

订阅专栏

一、Deep Video Super-Resolution Network Using Dynamic Upsampling Filters Without Explicit Motion Compensation （CVPR018 - DUF）

滑动窗口+DUF+拼接融合

1、出发点

现有方法严重依赖于运动估计和补偿的准确性。

2、主要工作

-本文不同于其他方法显式地计算和补偿输入帧之间的运动，而是把运动信息隐式地用于生成动态上采样滤波器。

本文提出了一种新型的端到端深度网络，它可以生成动态上采样滤波器和残差图像，残差图像依赖于每个像素的局部时空邻域来计算，以避免显式的运动补偿。

3、网络结构

多帧输入，含两个分支：

过滤器生成网络，生成上采样的过滤器，并利用学习到的过滤器对输入LR进行上采样；
残差生成网络，用于生成细节纹理信息。

4、动态上采样滤波器-Dynamic Upsampling Filters

当放大倍数为4时，LR中的一个像素，在HR中要变为16个像素，这16个像素主要通过LR中像素的邻域信息（5x5范围）获得。为了生成16个像素，就需要学习16个5x5的过滤器。
在这里插入图片描述

5、总结

这篇文章更像是针对SISR做的一个方法，因为它对多帧信息的利用非常简单，没有对齐，直接拼接，动态上采样滤波器（DUF）也没有看出来它具有隐式的利用运动信息。

二、Frame and Feature-Context Video Super-Resolution （AAAI2019）

RNN（上下文网络）+滑动窗口（局部网络）+拼接融合
没有光流估计

1、出发点

单独生成每个输出帧可以获得高质量的HR估计，但会导致伪影。
在短信息流的情况下，结合之前生成的HR帧可以产生时间一致的结果，但它会导致显著的抖动和锯齿状伪影，因为之前的超分辨率错误不断累积到后续帧。

2、主要工作

本文提出了一种Frame and Feature-Context 的视频超分（FFCVSR）方法。主要包含两个子网络：局部网络和上下文网络。
局部网络利用连续LR帧序列生成局部特征和局部SR帧。
上下文网络将局部网络输出与之前估计的HR帧和特征相结合，实现对后续帧的超分辨重建。

3、网络结构

在这里插入图片描述

4、Local Network

在这里插入图片描述

5、Context Network

在这里插入图片描述

三、Fast Spatio-Temporal Residual Network for Video Super-Resolution （CVPR2019）

滑动窗口+LR拼接+3D卷积
没有光流估计

1、主要工作

3D卷积可以很好地利用多帧视频数据的时间和空间信息，但是，直接使用3D卷积可能会导致过高的计算复杂度，限制了视频SR模型的深度，从而影响性能。
本文中提出了一种新的快速时空残差网络(FSTRN)，其中的快速时空残差块(FRB)，它将每个三维滤波器划分为两个具有相当低维的三维滤波器的乘积，在保持低计算负荷的同时提高性能。

2、网络结构

输入LR含有5帧信息，每次只重建中间帧。第一个卷积层为三维卷积，后续堆叠多个FRB。
在这里插入图片描述

3、Fast spatio-temporal residual blocks（FRBs）

如图所示，FRB将3DC分为两步进行，将k个kxk卷积转换为一个kxk卷积核k个1x1卷积，计算量更小，计算量和参数量减少了一半。这样，可也利用FRB设计更深的网络，从而获得更好地性能。
在这里插入图片描述

四、Recurrent Back-Projection Network for Video Super-Resolution （CVPR2019 RBPN）

滑动窗口+光流估计

1、网络结构

F为光流估计的结果，M为从参考帧和目标帧的特征，L为经过投影模块提取到的低分辨率特征图，H为投影模块提取到的高分辨率特征图。
疑问：光流与LR直接拼接有用吗？
在这里插入图片描述

2、投影模块

encoder阶段对M和L分别利用MISR和SISR上采样得到H，decoder阶段对H下采样得到L。
在这里插入图片描述

五、Video Super-Resolution with Recurrent Structure-Detail Network （ECCV2020）

RNN+融合（包括结构信息融合+细节信息融合+隐藏层自适应HSA融合）
本文设计了一个结构-细节循环网络，无运动估计模块。

1、主要工作

在递归单元中将结构信息（低频）和细节信息（高频）进行分离。这种策略不仅能够解决结构和细节两种信息的不同难点，而且能够对重构中的高频细节进行灵活监督，强化边缘。
设计Structure-Detail block，用于更好地提取和融合两种信息。
设计隐状态自适应模块（Hidden State Adaptation），更好的融合当前阶段与上一阶段的特征。

2、网络结构

标准的RNN结构。

递归单元输入：当前帧和上一帧图像、上一阶段隐藏状态信息h，上一阶段结构信息S、上一阶段细节信息D
输出：当前阶段的h、S、D、当前帧的HR输出

3、递归单元

结构-细节分离；
将当前帧图像域上一阶段隐藏状态信息进行融合
利用对称结构和SD块提取和融合特征；
得到更新后的信息。

4、SD block

SD模块不仅能保持两部分信息的区别，还促进结构和细节两部分之间的信息交换。
在这里插入图片描述

5、Hidden State Adaptation

作者发现，同一个隐含层的不同的通道的特征差异很大，所以他们对不同帧的不同位置的贡献是不同的，尤其是存在遮挡和大变形时。
作者提出HSA模块。根据当前帧的LR图像，生成过滤器，将该过滤器作用于隐藏层特征，得到隐藏层特征的权重。该模块希望：当隐藏层特征与当前帧相似时，则权重大一些；否则，如果不相似，权重小一些。

这个模块的设计作者实受《Dynamic filter networks》的启发：
对输入LR进行3x3卷积核ReLU激活，得到空间变形过滤器F（spatially variant filters）。
利用F对隐状态特征进行卷积运算，得到相似性矩阵；
对相似性矩阵用sigmoid函数激活，得到不同通道和空间位置的权重；
主元素乘法进行加权。

六、MuCAN: Multi-Correspondence Aggregation Network for Video Super-Resolution （ECCV2020）

1、出发点：

光流估计方法本身容易出错，从而影响最终影响重建结果；
VSR任务中很少利用自然图像中存在的类似模式（similar patterns）。

2、主要工作

设计了一种端到端的multi-correspondence aggregation network（MuCAN），无需光流估计。
设计Temporal Multi-Correspondence Aggregation Module挖掘帧间的相似结构并做聚合。
设计Cross-Scale Nonlocal-Correspondence Aggregation Module碗蕨帧内的跨尺度的相似结构并做聚合。

3、MuCAN总体结构

分四部分：

LR帧；
帧间详细结构聚合（TM-CAM）；
帧内快尺度相似结构聚合(CN-CAM)；
重建；

4、TM-CAM结构

U-Net结构，下采样过程中做聚合（AU单元）。
在这里插入图片描述

5、AU单元结构

在这里插入图片描述
其中的相似度计算方法为：

6、CN-CAM结构

在这里插入图片描述

7、损失函数

边缘损失+Charbonnier Loss
在这里插入图片描述

七、Zooming Slow-Mo: Fast and Accurate One-Stage Space-Time Video Super-Resolution （CVPR2020）

本篇文章设计一个端到端的网络，同时完成视频超分和视频插值任务。

1、网络结构图

在这里插入图片描述

2、Frame Feature Temporal Interpolation

在这里插入图片描述
本模块利用t-1帧和t+1帧预测第t帧的特征。

F1和F3拼接，利用可变性卷积预测偏移量φ1；
利用偏移量对F1特征进行偏移，得到T1特征；
同理对F3特征偏移，得到T3特征；
最后将两个特征进行混合，得到预测的F2特征；

3、 Deformable ConvLSTM

解决大运动问题，有效地利用全局时间上下文，作者将ConvLSTM与DCN相结合。
（1）ConvLSTM
在这里插入图片描述
（2）改进的 Deformable ConvLSTM
在ConvLSTM的基础上，利用可变形卷积对h和c进行了校正，然后将校正后的h和c，与当前帧特征一起送入ConvLSTM进行更新。