超分论文EDVR解读

《Video Restoration with Enhanced Deformable Convolutional Networks》

视频相邻帧存在一定的抖动,必须先对齐才能进一步处理融合。以往这可以使用光流算法处理,但本文中作者发明了一种新的网络模块PCD 对齐模块,使用Deformable卷积进行视频的对齐,整个过程可以端到端训练。

其中PCD 对齐模块,使用金字塔结构级联的Deformable卷积构建。

早期的研究仅将视频恢复任务看做图像恢复的简单拓展,视频帧与帧之间的冗余信息没能得到充分利用。最近的研究通过更复杂的pipeline将视频恢复任务分为特征提取、对齐、融合以及重新四部分,较好地利用了视频的帧间信息。
此时,对齐和融合模块的设计就成了很大的挑战。为了能得到高质量的结果,那么,精确地对齐相邻帧和参考帧、高效地融合对齐后的特征都是非常重要的。

Pre DeBlur Module
该模块是一个金字塔(Pyramid)结构,通过步长为2的卷积层得到,金字塔的每层通过若干个残差块提取特征。

金字塔结构是Encoder-Decoder网络的一个简洁版,而Encoder-Decoder对于图像增强任务(如去噪等)是非常有效的

PCD Align Module是在feature级别上对输入图像帧进行对齐,因此,Pre Deblur模块应是对每帧图像分别进行预去模糊,换句话说,该模块对不同的图像帧是共享参数的。

PCD Align Module
在feature level运用deformable conv.完成了图像对齐

TDAN提出了一种利用deformable conv.的单一尺度上的特征图对齐方法,EDVR基于TDAN提出了更为鲁棒的PCD模块,采用金字塔结构,实现了coarse-to-fine的图像帧特征图对齐。

输入特征图首先会经步长为2卷积层卷积得到L层的金字塔,

对于参考帧 t 和任一相邻帧 t+i ,在金字塔的每一层都进行了相似的操作,即:两特征图concat并经过卷积得到deformable conv.的offsets(黄色),

t+i 时刻的特征图作为feature输入至deformable conv.,经过deformable conv.输出了 t+i 时刻新的特征图;

此外,金字塔的下层的offsets会作为上层offset conv.的输入,用于更精确地进行offsets的估计,

deformable conv.输出的特征图也会上采样后与上层相应的特征进行融合。

直至金字塔的第一层,deformable conv.输出且与底层融合后的feature与参考帧的特征图concat作为新的deformable conv.的offsets的特征图,便可预测到最终的 t+i 时刻对齐的特征图。

TSA Fusion Module
TSA Fusion Module引入Attention机制,在spatial和temporal两个维度给予不同的特征图不同的权重

经过Fusion子模块,对所有的特征图进行卷积,即进行了特征融合操作;进一步,通过金字塔结构在不同的scale获取spatial attention map,经过上采样后得到经attention后的feature map.

Reconstruction
通过若干个残差块对融合后的feature进一步进行重建,文中指出,在挑战赛时采用了前后级联相同网络的形式提高性能,前一级网络使用了40个残差块,后一级使用了20个残差块。

  • 0
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

WX Chen

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值