Deep Video Super-Resolution Network Using Dynamic Upsampling Filters Without Explicit Motion Compensation
1.总结
以往的方法依赖于运动估计和补偿。对运动估计的准确度要求高。同时最后输出的HR图像是通过CNN混合来自多个运动补偿输入LR帧得到的,最终的结果也比较模糊。
作者提出一个基于每个像素局部的时空邻域产生动态上采样滤波器和残差图像的网络,一次阻止显式的运动补偿。最终HR图像的产生是通过直接对输入图片做动态上采样滤波和残差增强细节。
2.方法
VSR问题的定义为:
Y
^
t
=
G
θ
(
X
t
−
N
:
t
+
N
)
\hat Y_t = G_{\theta}(X_{t-N:t+N})
Y^t=Gθ(Xt−N:t+N)
G
G
G是
T
×
H
×
W
×
C
T \times H \times W \times C
T×H×W×C,输出张量是
1
×
r
H
×
r
W
×
C
1\times rH \times rW \times C
1×rH×rW×C。
r
r
r是上采样因子。
网络的设计包括两个输出,一个是动态上采样滤波器,一个是残差。
2.1 Dynamic Upsampling Filters
基于Dynamic filter network的思想,作者基于LR图片中每个像素的时空领域产生dynamic upsamping filter,如图所示。首先是低帧序列
{
X
t
−
N
:
t
+
N
}
\{X_{t-N:t+N}\}
{Xt−N:t+N}送入网络(文章里N取3,总共7帧)。然后训练网络产生
r
2
H
W
r^2HW
r2HW个滤波器(r是上采样倍数),滤波器大小是
5
×
5
5\times5
5×5。最终HR图像里的每个值是通过16个滤波器(上采样倍数4倍)滤波器和LR图像卷积得到的。由于动态滤波器的产生是通过查看像素的时空邻域生成的,因此取决于像素运动而创建,这样能够避免显式的运动补偿。
2.2 Residual Learning
上面产生的结果比较模糊,所以用residual learning来产生细节,sharp的结果。residual map的产生是由多帧产生的
2.3 Temporal Augmentation
使网络能理解多种和复杂的运动,在temporal轴上做了数据增强类似于rotation,flipping。我们介绍了确定时间增强的采样间隔的变量TA。 例如,在TA = 2的情况下,我们将对所有其他帧进行采样以模拟更快的运动。 设置TA值为负时,我们也可以按相反的顺序创建新的视频样本。由此创造了更丰富的运动。当 ∣ T A ∣ > 3 |TA| > 3 ∣TA∣>3的时候,VSR的表现下降。
3. Implementation
作者也收集了数据集。测试集的话用了val4。
训练的时候对图片做高斯模糊和降采样,最终大小为
32
×
32
32 \times 32
32×32,使用了Huber Loss
实验设置方面作者是验证了 动态上采样滤波器 和做了一些比较。