作者单位:华威大学、剑桥大学、三星剑桥AI中心
论文链接:https://arxiv.org/pdf/2108.08305.pdf
编者言: 本文是第一个在深度盲VSR中研究真实视频中核的时间一致性的方法,它展示了如何通过核估计和运动补偿的相互作用以便在盲VSR中利用时间核和帧信息。
看点
SISR方法在未知退化帧的升级方面取得了前所未有的性能。这些模型能够从给定的低分辨率(LR)图像中准确估计未知的降尺度核,以便在恢复过程中利用核。尽管这些方法在很大程度上是成功的,但它们主要是基于图像的,没有利用跨多个视频帧的核的时间特性。为此,本文研究了真实世界视频的时间核一致性,并表明它们的一致性随视频的动态性而变化。利用这个认知重新审视了以前的VSR方法,表明在以前的整个恢复过程中使用固定核的假设可能导致在升级真实视频时产生视觉伪影。通过对现有超分方法的修改,强调了利用时间核一致性进行精确核估计和运动补偿的潜力,实现了盲VSR的新水平并获得可观的性能增益。
方法
问题公式
退化过程通常为: y t + i = ( ( F t → t + i x t ) ∗ k t + i ) ↓ s + n t + i y_{t+i}=((F_{t→t+i}x_t)*k_{t+i})↓_s+n_{t+i} yt+i=((Ft→t+ixt)∗kt+i)↓s+nt+i F 、 x 、 y 、 n 、 k F、x、y、n、k F、x、y、n、k分别代表扭曲矩阵、HR,LR、加性噪声,模糊核。为了计算 k k k和 x x x,最先进的盲图超分算法将其分解为两个子问题,估计k和恢复x。MFSR解决方案包括一个额外的子问题,估计每个支撑帧和它的参考帧之间的运动,以执行运动补偿从而在恢复期间利用时间帧信息。本文使用逐帧核的方法,优化如下问题: x ^ t = arg min x t ∑ i = − N N ∥ y t + i − ( ( F t → t + i x t ) ∗ k t + i ) ↓ s ∥ k ^ t = arg min k t ∥ y t − ( x t ∗ k t ) ↓ s ∥ F ^ t → t + i = arg min F t → t + i ∥ y t + i − ( ( F t → t + i x t ) ∗ k t + i ) ↓ s ∥ \begin{aligned} \hat{x}_{t} &=\underset{x_{t}}{\arg \min } \sum_{i=-N}^{N}\left\|y_{t+i}-\left(\left(F_{t \rightarrow t+i} x_{t}\right) * k_{t+i}\right) \downarrow_{s}\right\| \\ \hat{k}_{t} &=\underset{k_{t}}{\arg \min }\left\|y_{t}-\left(x_{t} * k_{t}\right) \downarrow_{s}\right\| \\ \hat{F}_{t \rightarrow t+i} &=\underset{F_{t \rightarrow t+i}}{\arg \min }\left\|y_{t+i}-\left(\left(F_{t \rightarrow t+i} x_{t}\right) * k_{t+i}\right) \downarrow_{s}\right\| \end{aligned} x^tk^tF^t→t+i=xtargmini=−N∑N∥yt+i−((Ft→t+ixt)∗kt+i)↓s∥=ktargmin∥yt−(xt∗kt)↓s∥=Ft→t+iargmin∥yt+i−((Ft→t+ixt)∗kt+i)↓s∥
SR核与实验
为了研究真实视频中的时间核变化,我们从真实视频预测数据集中采用KernelGAN提取了一些核序列。通过这些核序列观察到每帧提取的SR核往往是不同的,并且表现出一定程度的取决于视频动态性的时间连续性。下图通过计算相邻帧的核PCA分量之间的绝对差值之和展示了不同视频序列中核变化幅度的分布。
上述实验强调了真实视频中的SR核通常是不均匀的,可以表现出不同程度的时间一致性。以前的MFSR工作利用固定的SR核,下图展示使用固定核和为每帧单独计算核的重构见效果,表明这种方法并不利于视频恢复。
在当前的MFSR方法中,运动补偿模型在固定SR核时表现得更好,但这在真实视频中并不适用。对于每帧具有不同核的视频,由于核的不匹配,对齐的帧会过度平滑和模糊。
利用时间核的一致性
假定通过使用时间核一致性可以减轻上述的限制。本框架对盲图像SR算法DAN与结合了EDVR的MFSR模块进行调整,以利用时间核一致性,框架概述如下:
DAN是一种端到端学习方法,它交替估计核
k
k
k和恢复帧
x
x
x,如上图黑色所示。它共有两个卷积模块:重建
x
x
x的修复器和一个学习
k
k
k的PCA估计器。两个组件的基本块是条件残差块(CRB),它将输入通道连接起来然后通过通道注意层挖掘特征图之间的相互依赖。交替从初始核开始迭代执行两个部分,如下:
x
(
j
+
1
)
=
arg
min
x
∥
y
−
(
x
∗
k
(
j
)
)
↓
s
∥
1
k
(
j
+
1
)
=
arg
min
k
∥
y
−
(
x
(
j
+
1
)
∗
k
)
↓
s
∥
1
\begin{aligned} &x^{(j+1)}=\underset{x}{\arg \min }\left\|y-\left(x * k^{(j)}\right) \downarrow_{s}\right\|_{1} \\ &k^{(j+1)}=\underset{k}{\arg \min }\left\|y-\left(x^{(j+1)} * k\right) \downarrow s\right\|_{1} \end{aligned}
x(j+1)=xargmin∥∥∥y−(x∗k(j))↓s∥∥∥1k(j+1)=kargmin∥∥∥y−(x(j+1)∗k)↓s∥∥∥1
j
j
j表示迭代轮数,训练时均使用
L
1
L_1
L1损失。
对于多帧实验,如上图蓝色所示,使用上采样前最后一次迭代恢复的LR特征图,采用EDVR的PCD模块、TSA模块、重建模块进行时间对齐、融合和视频恢复。该方法将核估计和搭载了MFSR运动补偿的盲图恢复技术相结合,并进行相应修改以利用时间核一致性。模型进一步的细节详见原文附录。
实验
实验设置
估计器上实验了不同数量的输入帧,记为Est-α,其中α是用于核估计的帧数。同样,将用于恢复的帧数记为Res-β。训练与测试集均采用REDS。训练时使用KernelGAN的设置生成了大小为13×13的各向异性高斯核,并将两个轴的长度均匀采样于(0.6,5)。对于真实视频,进一步在生成的无噪声核中加入均匀的乘性噪声,最高可达核中每个像素值的25%,并将其归一化。利用随机生成的核函数对每个HR视频的每一帧进行降级,然后使用双三次插值进行下采样,形成LR视频。测试时随机抽取Something-Something数据集的序列,使其估计的核具有不同的时间核一致性。然后使用这些核来降级测试集以模拟真实视频的降级。
消融实验
测试集每个视频的不同估计器的核估计误差分布:
更精确的核值并不能显著提高恢复单帧图像的性能,但由于它对于运动补偿是至关重要的,因此有利于多帧图像恢复器:
定量评估
定性评估
真实世界视频的定性评估,无地面真实值: