Video SR-2

一、Deep Video Super-Resolution Network Using Dynamic Upsampling Filters Without Explicit Motion Compensation (CVPR018 - DUF)

  • 滑动窗口+DUF+拼接融合
1、出发点
  • 现有方法严重依赖于运动估计和补偿的准确性
2、主要工作

-本文不同于其他方法显式地计算和补偿输入帧之间的运动,而是把运动信息隐式地用于生成动态上采样滤波器。

  • 本文提出了一种新型的端到端深度网络,它可以生成动态上采样滤波器和残差图像,残差图像依赖于每个像素的局部时空邻域来计算,以避免显式的运动补偿。
3、网络结构

多帧输入,含两个分支:

  • 过滤器生成网络,生成上采样的过滤器,并利用学习到的过滤器对输入LR进行上采样;
  • 残差生成网络,用于生成细节纹理信息。
    在这里插入图片描述
4、 动态上采样滤波器-Dynamic Upsampling Filters

当放大倍数为4时,LR中的一个像素,在HR中要变为16个像素,这16个像素主要通过LR中像素的邻域信息(5x5范围)获得。为了生成16个像素,就需要学习16个5x5的过滤器。
在这里插入图片描述

5、总结

这篇文章更像是针对SISR做的一个方法,因为它对多帧信息的利用非常简单,没有对齐,直接拼接,动态上采样滤波器(DUF)也没有看出来它具有隐式的利用运动信息。

二、Frame and Feature-Context Video Super-Resolution (AAAI2019)

  • RNN(上下文网络)+滑动窗口(局部网络)+拼接融合
  • 没有光流估计
1、出发点
  • 单独生成每个输出帧可以获得高质量的HR估计,但会导致伪影。
  • 在短信息流的情况下,结合之前生成的HR帧可以产生时间一致的结果,但它会导致显著的抖动和锯齿状伪影,因为之前的超分辨率错误不断累积到后续帧。
2、主要工作
  • 本文提出了一种Frame and Feature-Context 的视频超分(FFCVSR)方法。主要包含两个子网络:局部网络和上下文网络。
  • 局部网络利用连续LR帧序列生成局部特征局部SR帧
  • 上下文网络将局部网络输出之前估计的HR帧和特征相结合,实现对后续帧的超分辨重建。
3、网络结构

在这里插入图片描述

4、Local Network

在这里插入图片描述

5、Context Network

在这里插入图片描述

三、Fast Spatio-Temporal Residual Network for Video Super-Resolution (CVPR2019)

  • 滑动窗口+LR拼接+3D卷积
  • 没有光流估计
1、主要工作
  • 3D卷积可以很好地利用多帧视频数据的时间和空间信息,但是,直接使用3D卷积可能会导致过高的计算复杂度,限制了视频SR模型的深度,从而影响性能。
  • 本文中提出了一种新的快速时空残差网络(FSTRN),其中的快速时空残差块(FRB),它将每个三维滤波器划分为两个具有相当低维的三维滤波器的乘积,在保持低计算负荷的同时提高性能。
2、网络结构

输入LR含有5帧信息,每次只重建中间帧。第一个卷积层为三维卷积,后续堆叠多个FRB。
在这里插入图片描述

3、Fast spatio-temporal residual blocks(FRBs)

如图所示,FRB将3DC分为两步进行,将k个kxk卷积转换为一个kxk卷积核k个1x1卷积,计算量更小,计算量和参数量减少了一半。这样,可也利用FRB设计更深的网络,从而获得更好地性能。
在这里插入图片描述
在这里插入图片描述

四、Recurrent Back-Projection Network for Video Super-Resolution (CVPR2019 RBPN)

  • 滑动窗口+光流估计
1、网络结构

F为光流估计的结果,M为从参考帧和目标帧的特征,L为经过投影模块提取到的低分辨率特征图,H为投影模块提取到的高分辨率特征图。
疑问:光流与LR直接拼接有用吗?
在这里插入图片描述

2、投影模块

encoder阶段对M和L分别利用MISR和SISR上采样得到H,decoder阶段对H下采样得到L。
在这里插入图片描述

五、Video Super-Resolution with Recurrent Structure-Detail Network (ECCV2020)

  • RNN+融合(包括结构信息融合+细节信息融合+隐藏层自适应HSA融合)
  • 本文设计了一个结构-细节循环网络,无运动估计模块。
1、主要工作
  • 在递归单元中将结构信息(低频)和细节信息(高频)进行分离。这种策略不仅能够解决结构和细节两种信息的不同难点,而且能够对重构中的高频细节进行灵活监督,强化边缘。
  • 设计Structure-Detail block,用于更好地提取和融合两种信息。
  • 设计隐状态自适应模块(Hidden State Adaptation),更好的融合当前阶段与上一阶段的特征。
2、网络结构

标准的RNN结构。

  • 递归单元输入:当前帧和上一帧图像、上一阶段隐藏状态信息h,上一阶段结构信息S、上一阶段细节信息D
  • 输出:当前阶段的h、S、D、当前帧的HR输出
    在这里插入图片描述
3、递归单元
  • 结构-细节分离;
  • 将当前帧图像域上一阶段隐藏状态信息进行融合
  • 利用对称结构和SD块提取和融合特征;
  • 得到更新后的信息。
    在这里插入图片描述
4、SD block

SD模块不仅能保持两部分信息的区别,还促进结构和细节两部分之间的信息交换。
在这里插入图片描述

5、Hidden State Adaptation
  • 作者发现,同一个隐含层的不同的通道的特征差异很大,所以他们对不同帧的不同位置的贡献是不同的,尤其是存在遮挡和大变形时。
  • 作者提出HSA模块。根据当前帧的LR图像,生成过滤器,将该过滤器作用于隐藏层特征,得到隐藏层特征的权重。该模块希望:当隐藏层特征与当前帧相似时,则权重大一些;否则,如果不相似,权重小一些。
    在这里插入图片描述
    这个模块的设计作者实受《Dynamic filter networks》的启发:
  • 对输入LR进行3x3卷积核ReLU激活,得到 空间变形过滤器F(spatially variant filters)。
  • 利用F对隐状态特征进行卷积运算,得到相似性矩阵;
  • 对相似性矩阵用sigmoid函数激活,得到不同通道和空间位置的权重;
  • 主元素乘法进行加权。
    在这里插入图片描述

六、MuCAN: Multi-Correspondence Aggregation Network for Video Super-Resolution (ECCV2020)

1、出发点:
  • 光流估计方法本身容易出错,从而影响最终影响重建结果;
  • VSR任务中很少利用自然图像中存在的类似模式(similar patterns)。
2、主要工作
  • 设计了一种端到端的multi-correspondence aggregation network(MuCAN),无需光流估计。
  • 设计Temporal Multi-Correspondence Aggregation Module挖掘帧间的相似结构并做聚合。
  • 设计Cross-Scale Nonlocal-Correspondence Aggregation Module碗蕨帧内的跨尺度的相似结构并做聚合。
3、MuCAN总体结构

分四部分:

  • LR帧;
  • 帧间详细结构聚合(TM-CAM);
  • 帧内快尺度相似结构聚合(CN-CAM);
  • 重建;
    在这里插入图片描述
4、TM-CAM结构

U-Net结构,下采样过程中做聚合(AU单元)。
在这里插入图片描述

5、AU单元结构

在这里插入图片描述
其中的相似度计算方法为:
在这里插入图片描述

6、CN-CAM结构

在这里插入图片描述

7、损失函数

边缘损失+Charbonnier Loss
在这里插入图片描述

七、Zooming Slow-Mo: Fast and Accurate One-Stage Space-Time Video Super-Resolution (CVPR2020)

本篇文章设计一个端到端的网络,同时完成视频超分和视频插值任务。

1、网络结构图

在这里插入图片描述

2、Frame Feature Temporal Interpolation

在这里插入图片描述
本模块利用t-1帧和t+1帧预测第t帧的特征。

  • F1和F3拼接,利用可变性卷积预测偏移量φ1;
  • 利用偏移量对F1特征进行偏移,得到T1特征;
  • 同理对F3特征偏移,得到T3特征;
  • 最后将两个特征进行混合,得到预测的F2特征; 在这里插入图片描述
3、 Deformable ConvLSTM

解决大运动问题,有效地利用全局时间上下文,作者将ConvLSTM与DCN相结合。
(1)ConvLSTM
在这里插入图片描述
(2)改进的 Deformable ConvLSTM
在ConvLSTM的基础上,利用可变形卷积对h和c进行了校正,然后将校正后的h和c,与当前帧特征一起送入ConvLSTM进行更新。
在这里插入图片描述

八、Space-Time-Aware Multi-Resolution Video Enhancement (CVPR2020)

这篇文章主要工作与上一篇一样,都是设计端到端的网络,同时完成视频超分和视频插值任务。不同于上一篇文章,这篇文章采用光流估计来估计运动信息。

1、网络结构

分三个阶段

  • 第一阶段利用光流和前后帧信息初步估计中间帧的LR和HR特征图;
  • 第二阶段在第一阶段的基础上,对特征进行进一步的细化;
  • 第三部完成重建;
    在这里插入图片描述

九、Temporal Modulation Network for Controllable Space-Time Video Super-Resolution (CVPR2021)

1、主要工作
  • 提出一种时间调制网络(TMNet)来实现任意帧率的可控插值(基于DCN的时间调制模块);
  • 提出了一种两阶段时间特征融合方案来实现有效的(LFC和GFF,分别对应短期信息和长期信息)
2、总体网络结构
  • 利用CFI模块初始化待插入帧的LR特征;
  • 利用LFC挖掘短期的相邻帧特征(3帧);
  • Bi-directional Deformable ConvLSTM (BDConvLSTM)设计GFF模块,挖掘长期的相邻帧特征;
    在这里插入图片描述
3、CFI模块
  • CFI模块(图左侧)用于产生新插入帧的特征;
  • 右侧为TMB模块,作用是利用DCN完成特征的偏移。这里的DCN采用EDVR中的PCD模块+把本文提出的TMB时间调制模块。图中可以看到,实际就是在EDVR的PCD模块的三层特征都加上了个TMB模块。
    在这里插入图片描述
4、局部融合与全局融合
  • 局部融合:互动窗口+DCN变形
    在这里插入图片描述
  • 全局融合:
    利用BDConvLSTM网络融合多帧特征。
  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值