EDVR: Video Restoration with Enhanced Deformable Convolutional Networks
(这篇文章当时写的时候还没入门视频超分,只是粗略的记录了当时的阅读经历,现在重新写了一篇细致的EDVR,欢迎阅读 2022.5.4)
论文地址:https://arxiv.org/abs/1905.02716
代码地址:https://github.com/xinntao/EDVR.
文章提出了一种新的具有增强可变形卷积的视频恢复框架,称为EDVR。是适用于多种视频恢复任务的通用体系结构,包括超分辨率、去模糊、去噪、去块等。
从两个方向提出了本方法:
(1)如何在给定大运动的情况下对齐多个帧;
(2)如何有效地融合具有不同运动和模糊的不同帧。
这两方面具体是:
- 为了处理大的运动,设计了一个金字塔、级联和可变形(PCD)对齐模块,在该模块中,帧对齐是在特征级别上以从粗到精的方式使用可变形卷积进行的。
- 提出了一个时间和空间注意(TSA)融合模块,在该模块中,注意在时间和空间上都被应用,以便强调后续恢复的重要特征。
使用“真实和多样场景数据集”(REDS),其中包含更大,更复杂的运动。
金字塔、级联和可变形卷积的对齐
1、金字塔、级联和可变形卷积的对齐:
大多数现有方法通过明确估计参考帧与其相邻帧之间的光流场来执行对齐。另一个研究分支通过动态滤波或可变形卷积实现隐式运动补偿。对于基于流的方法来说,精确的流估计和精确的翘曲可能具有挑战性且耗时。在大运动的情况下,很难在单个分辨率范围内显式或隐式执行运动补偿。
EDVR使用金字塔、级联和可变形卷积。以从粗到精的方式执行对齐,以处理大型和复杂的运动。具体来说,使用金字塔结构,首先将较低尺度的特征与粗略估计对齐,然后将偏移和对齐的特征传播到较高尺度,以促进精确的运动补偿,类似于光流估计中采用的概念。此外,在金字塔对齐操作之后级联了额外的可变形卷积,以进一步提高对齐的鲁棒性。
具体实现:
如下图3中的黑色虚线所示,为了在第 l l l 级生成特征 F t + i l F^l_{t+i} Ft+il,使用跨步卷积滤波器在金字塔 ( l − 1 ) (l-1) (l−1) 层对特征进行down scale factor=2的降采样,获得特征表示的 l l l 级金字塔。在第 l l l 级,偏移和对齐特征也分别使用 ( l + 1 ) (l+1) (l+