一、Deep Video Super-Resolution Network Using Dynamic Upsampling Filters Without Explicit Motion Compensation (CVPR018 - DUF)
- 滑动窗口+DUF+拼接融合
1、出发点
- 现有方法严重依赖于运动估计和补偿的准确性。
2、主要工作
-本文不同于其他方法显式地计算和补偿输入帧之间的运动,而是把运动信息隐式地用于生成动态上采样滤波器。
- 本文提出了一种新型的端到端深度网络,它可以生成动态上采样滤波器和残差图像,残差图像依赖于每个像素的局部时空邻域来计算,以避免显式的运动补偿。
3、网络结构
多帧输入,含两个分支:
- 过滤器生成网络,生成上采样的过滤器,并利用学习到的过滤器对输入LR进行上采样;
- 残差生成网络,用于生成细节纹理信息。
4、 动态上采样滤波器-Dynamic Upsampling Filters
当放大倍数为4时,LR中的一个像素,在HR中要变为16个像素,这16个像素主要通过LR中像素的邻域信息(5x5范围)获得。为了生成16个像素,就需要学习16个5x5的过滤器。
5、总结
这篇文章更像是针对SISR做的一个方法,因为它对多帧信息的利用非常简单,没有对齐,直接拼接,动态上采样滤波器(DUF)也没有看出来它具有隐式的利用运动信息。
二、Frame and Feature-Context Video Super-Resolution (AAAI2019)
- RNN(上下文网络)+滑动窗口(局部网络)+拼接融合
- 没有光流估计
1、出发点
- 单独生成每个输出帧可以获得高质量的HR估计,但会导致伪影。
- 在短信息流的情况下,结合之前生成的HR帧可以产生时间一致的结果,但它会导致显著的抖动和锯齿状伪影,因为之前的超分辨率错误不断累积到后续帧。
2、主要工作
- 本文提出了一种Frame and Feature-Context 的视频超分(FFCVSR)方法。主要包含两个子网络:局部网络和上下文网络。
- 局部网络利用连续LR帧序列生成局部特征和局部SR帧。
- 上下文网络将局部网络输出与之前估计的HR帧和特征相结合,实现对后续帧的超分辨重建。
3、网络结构
4、Local Network
5、Context Network
三、Fast Spatio-Temporal Residual Network for Video Super-Resolution (CVPR2019)
- 滑动窗口+LR拼接+3D卷积
- 没有光流估计
1、主要工作
- 3D卷积可以很好地利用多帧视频数据的时间和空间信息,但是,直接使用3D卷积可能会导致过高的计算复杂度,限制了视频SR模型的深度,从而影响性能。
- 本文中提出了一种新的快速时空残差网络(FSTRN),其中的快速时空残差块(FRB),它将每个三维滤波器划分为两个具有相当低维的三维滤波器的乘积,在保持低计算负荷的同时提高性能。
2、网络结构
输入LR含有5帧信息,每次只重建中间帧。第一个卷积层为三维卷积,后续堆叠多个FRB。
3、Fast spatio-temporal residual blocks(FRBs)
如图所示,FRB将3DC分为两步进行,将k个kxk卷积转换为一个kxk卷积核k个1x1卷积,计算量更小,计算量和参数量减少了一半。这样,可也利用FRB设计更深的网络,从而获得更好地性能。
四、Recurrent Back-Projection Network for Video Super-Resolution (CVPR2019 RBPN)
- 滑动窗口+光流估计
1、网络结构
F为光流估计的结果,M为从参考帧和目标帧的特征,L为经过投影模块提取到的低分辨率特征图,H为投影模块提取到的高分辨率特征图。
疑问:光流与LR直接拼接有用吗?
2、投影模块
encoder阶段对M和L分别利用MISR和SISR上采样得到H,decoder阶段对H下采样得到L。
五、Video Super-Resolution with Recurrent Structure-Detail Network (ECCV2020)
- RNN+融合(包括结构信息融合+细节信息融合+隐藏层自适应HSA融合)
- 本文设计了一个结构-细节循环网络,无运动估计模块。
1、主要工作
- 在递归单元中将结构信息(低频)和细节信息(高频)进行分离。这种策略不仅能够解决结构和细节两种信息的不同难点,而且能够对重构中的高频细节进行灵活监督,强化边缘。
- 设计Structure-Detail block,用于更好地提取和融合两种信息。
- 设计隐状态自适应模块(Hidden State Adaptation),更好的融合当前阶段与上一阶段的特征。
2、网络结构
标准的RNN结构。
- 递归单元输入:当前帧和上一帧图像、上一阶段隐藏状态信息h,上一阶段结构信息S、上一阶段细节信息D
- 输出:当前阶段的h、S、D、当前帧的HR输出
3、递归单元
- 结构-细节分离;
- 将当前帧图像域上一阶段隐藏状态信息进行融合
- 利用对称结构和SD块提取和融合特征;
- 得到更新后的信息。
4、SD block
SD模块不仅能保持两部分信息的区别,还促进结构和细节两部分之间的信息交换。
5、Hidden State Adaptation
- 作者发现,同一个隐含层的不同的通道的特征差异很大,所以他们对不同帧的不同位置的贡献是不同的,尤其是存在遮挡和大变形时。
- 作者提出HSA模块。根据当前帧的LR图像,生成过滤器,将该过滤器作用于隐藏层特征,得到隐藏层特征的权重。该模块希望:当隐藏层特征与当前帧相似时,则权重大一些;否则,如果不相似,权重小一些。
这个模块的设计作者实受《Dynamic filter networks》的启发: - 对输入LR进行3x3卷积核ReLU激活,得到 空间变形过滤器F(spatially variant filters)。
- 利用F对隐状态特征进行卷积运算,得到相似性矩阵;
- 对相似性矩阵用sigmoid函数激活,得到不同通道和空间位置的权重;
- 主元素乘法进行加权。
六、MuCAN: Multi-Correspondence Aggregation Network for Video Super-Resolution (ECCV2020)
1、出发点:
- 光流估计方法本身容易出错,从而影响最终影响重建结果;
- VSR任务中很少利用自然图像中存在的类似模式(similar patterns)。
2、主要工作
- 设计了一种端到端的multi-correspondence aggregation network(MuCAN),无需光流估计。
- 设计Temporal Multi-Correspondence Aggregation Module挖掘帧间的相似结构并做聚合。
- 设计Cross-Scale Nonlocal-Correspondence Aggregation Module碗蕨帧内的跨尺度的相似结构并做聚合。
3、MuCAN总体结构
分四部分:
- LR帧;
- 帧间详细结构聚合(TM-CAM);
- 帧内快尺度相似结构聚合(CN-CAM);
- 重建;
4、TM-CAM结构
U-Net结构,下采样过程中做聚合(AU单元)。
5、AU单元结构
其中的相似度计算方法为:
6、CN-CAM结构
7、损失函数
边缘损失+Charbonnier Loss
七、Zooming Slow-Mo: Fast and Accurate One-Stage Space-Time Video Super-Resolution (CVPR2020)
本篇文章设计一个端到端的网络,同时完成视频超分和视频插值任务。
1、网络结构图
2、Frame Feature Temporal Interpolation
本模块利用t-1帧和t+1帧预测第t帧的特征。
- F1和F3拼接,利用可变性卷积预测偏移量φ1;
- 利用偏移量对F1特征进行偏移,得到T1特征;
- 同理对F3特征偏移,得到T3特征;
- 最后将两个特征进行混合,得到预测的F2特征;
3、 Deformable ConvLSTM
解决大运动问题,有效地利用全局时间上下文,作者将ConvLSTM与DCN相结合。
(1)ConvLSTM
(2)改进的 Deformable ConvLSTM
在ConvLSTM的基础上,利用可变形卷积对h和c进行了校正,然后将校正后的h和c,与当前帧特征一起送入ConvLSTM进行更新。
八、Space-Time-Aware Multi-Resolution Video Enhancement (CVPR2020)
这篇文章主要工作与上一篇一样,都是设计端到端的网络,同时完成视频超分和视频插值任务。不同于上一篇文章,这篇文章采用光流估计来估计运动信息。
1、网络结构
分三个阶段
- 第一阶段利用光流和前后帧信息初步估计中间帧的LR和HR特征图;
- 第二阶段在第一阶段的基础上,对特征进行进一步的细化;
- 第三部完成重建;
九、Temporal Modulation Network for Controllable Space-Time Video Super-Resolution (CVPR2021)
1、主要工作
- 提出一种时间调制网络(TMNet)来实现任意帧率的可控插值(基于DCN的时间调制模块);
- 提出了一种两阶段时间特征融合方案来实现有效的(LFC和GFF,分别对应短期信息和长期信息)
2、总体网络结构
- 利用CFI模块初始化待插入帧的LR特征;
- 利用LFC挖掘短期的相邻帧特征(3帧);
- Bi-directional Deformable ConvLSTM (BDConvLSTM)设计GFF模块,挖掘长期的相邻帧特征;
3、CFI模块
- CFI模块(图左侧)用于产生新插入帧的特征;
- 右侧为TMB模块,作用是利用DCN完成特征的偏移。这里的DCN采用EDVR中的PCD模块+把本文提出的TMB时间调制模块。图中可以看到,实际就是在EDVR的PCD模块的三层特征都加上了个TMB模块。
4、局部融合与全局融合
- 局部融合:互动窗口+DCN变形
- 全局融合:
利用BDConvLSTM网络融合多帧特征。