论文链接:https://arxiv.org/abs/2103.14858
代码链接:https://github.com/ding3820/MIMO-VRN
编者言: 本文以视频缩放任务为切入点,将IRN视频超分话化。与normal的VSR不同点在于将降采样也加入学习任务,这或许是后VSR时代一个不错的研究方向。
看点
最近的大多数研究都集中在基于图像的上下采样联合优化方案上,这些方案不考虑时间信息,为此,本文提出了基于耦合层可逆神经网络的两种联合优化方案。长短期记忆视频缩放网络(LSTM-VRN)利用低分辨率视频中的时间信息,对缺失的高频信息进行预测;多输入输出视频缩放网络(MIMO-VRN)是一种同时对一组视频帧进行缩放的策略。它们不仅在定量和定性结果上都优于基于图像的可逆模型,并在视觉质量方面提供可与双三次缩小视频相媲美的LR视频,而且比没有联合优化的视频缩放方法有很大的提升。这项工作是第一次尝试联合优化视频的缩放任务。
方法
IRN
在介绍本文的方法前,先了解一下在SISR中的相似方法。视频缩放任务将固定的降采样方法转化为可学习的模型,以使LR图像适应联合学习的上采样过程。训练目标通常要求LR图像也适合人类的感知。最近,IRN在这个联合优化任务中引入了一个可逆模型。它能够通过相同的神经网络配置来实现图像的上下采样,它提供了一种方法来明确地建模高斯噪声降采样而丢失的高频信息。IRN的前向模型包括一个二维Haar变换和8个耦合层,如下图所示。通过二维Haar变换,首先将输入的HR帧
x
x
x分解为一个低频分量
y
′
y^{\prime}
y′和三个高频分量
z
′
z^{\prime}
z′。这两个分量随后通过耦合层进行处理,输出视觉上悦目的LR图像
y
y
y和HR图像中固有的互补高频信息
z
z
z。从理论上讲,由于模型是可逆的,反向耦合层可以从y和z无损失地恢复。但在实践中,
z
z
z在推断时unavailable。IRN的训练要求
z
z
z遵循高斯分布,以便在推断时,可以得到一个高斯样本
z
^
\hat z
z^来代替缺失的高频分量。本质上IRN是一种基于图像的方法,所以虽然IRN在图像缩放任务上取得了较好的效果,但对于视频缩放并不是最优的。
Overview
LSTM-VRN和MIMO-VRN的结构如下图所示
LSTM-VRN
与大多数视频超分辨率技术一样,LSTM-VRN(上图(a))采用SISO策略通过可逆网络的正向模型进行降采样操作,之后采用MISO的上采样方法。具体的说,首先通过一个基于LSTM的预测模块融合当前LR帧 y ^ t \hat y_t y^t其相邻帧 { y ^ t − i \{\hat y_{t-i} {y^t−i, y ^ t + i } i = 1 L \hat y_{t+i}\}_{i=1}^L y^t+i}i=1L,形成对缺失高频成分 z t z_t zt的估计 z ^ t \hat z_t z^t,将 z ^ t \hat z_t z^t与 y ^ t \hat y_t y^t一起输入进可逆模块重建SR帧 x ^ t \hat x_t x^t。其中 z t z_t zt需要从多个LR帧中推算以去决定LR视频中应该保留哪些信息以提升预测效果。在推理时间t时,预测模块前项模式为: h t f = S T − L S T M ( f t − 1 , h t − 1 f ) h t y = R e s i d u a l B l o c k ( y ^ t ) a t = σ ( W ⊗ h t y ) f t = ( 1 − a t ) ⊙ h t f + a t ⊙ h t y h_t^f=ST-LSTM(f_{t-1},h_{t-1}^f)\\h_t^y=ResidualBlock(\hat y_t)\\a_t= \sigma(W\otimes h_t^y)\\f_t=(1-a_t)\odot h_t^f+a_t\odot h_t^y htf=ST−LSTM(ft−1,ht−1f)hty=ResidualBlock(y^t)at=σ(W⊗hty)ft=(1−at)⊙htf+at⊙hty其中 σ \sigma σ为sigmoid函数, ⊗ \otimes ⊗为标准卷积, ⊙ \odot ⊙为矩阵乘法。随后,正向传播的 f t f_t ft与反向传播的 b t b_t bt通过一个1X1的卷积输出预测 z ^ t \hat z_t z^t。注意到LSTM-VRN仅利用LR视频帧的时间信息进行缩放,而其降采样仍然是基于SISO的方案,没有利用到HR视频帧的时间信息。
MIMO-VRN
在这里,本文提出了一种新的基本处理单元,称为帧组(Group of Frames, GoF)。首先,将HR视频分解为非重叠的帧组
{
x
t
}
t
=
1
g
,
{
x
t
}
t
=
g
+
1
2
g
\{x_t\}_{t=1}^g,\{x_t\}_{t=g+1}^{2g}
{xt}t=1g,{xt}t=g+12g,…,每个帧组包含g个帧,每个帧组都独立的进行降采样。在一个GoF中,每个视频帧首先使用二维Haar小波单独变换,得到低频分量
y
t
′
y_t^{\prime}
yt′和高频分量
z
t
′
z_t^{\prime}
zt′。然后将整个组输入到耦合层中,通过两个降尺度模块,得到一组量化的LR帧
Y
^
t
\hat\mathcal Y_t
Y^t和一组高频分量
Z
^
t
\hat\mathcal Z_t
Z^t。值得注意的是,由于组耦合的性质,
Y
^
t
\hat\mathcal Y_t
Y^t与
Z
^
t
\hat\mathcal Z_t
Z^t之间不存在一一对应关系。
上采样的过程也是在帧组基础上进行的。如上图(b)所示,本文采用基于残差块的预测模块对对应的LR帧组中缺失的高频分量进行预测。与降采样的帧组输入的概念类似,LR帧组和估计的高频分量组输入进可逆网络以逆模式运行。这种基于MIMO的上采样方法可以同时重构一组HR帧。
损失
LSTM-VRN的训练包含两个损失函数。首先,为了确保LR视频具有视觉上的美观性,将LR损失定义为:
L
L
R
=
1
N
∑
t
=
1
N
∣
∣
x
t
b
i
c
−
y
^
t
∣
∣
2
\mathcal L_{LR}=\frac{1}{N}\sum_{t=1}^{N}||x_t^{bic}-\hat y_t||^2
LLR=N1t=1∑N∣∣xtbic−y^t∣∣2其次,为了使HR重构质量最大化,使用Charbonnier来定义HR损失
L
H
R
\mathcal L_{HR}
LHR。总的损失为
L
t
o
t
a
l
=
L
H
R
+
λ
L
L
R
\mathcal L_{total}=\mathcal L_{HR}+λ\mathcal L_{LR}
Ltotal=LHR+λLLR,其中λ为超参数。
MIMO-VRN的训练与LSTM-VRN具有相同的
L
H
R
L_{HR}
LHR和
L
L
R
L_{LR}
LLR损失,因为它们有共同的优化目标。然而,我们注意到MIMO-VRN往往在GoF的视频帧上具有不均匀的HR重建质量(见消融实验)。为了缓解GoF中的质量波动,在MIMO-VRN中引入了以下中心损失:
L
c
e
n
t
e
r
=
1
M
×
g
∑
m
=
1
M
∑
t
=
(
m
−
1
)
g
+
1
m
g
∣
∥
x
t
−
x
^
t
∥
2
−
c
m
∣
\mathcal L_{center}=\frac{1}{M\times g}\sum_{m=1}^M\sum_{t=(m-1)g+1}^{mg}\vert\Vert\ x_t-\hat x_t\Vert^2-c_m\vert
Lcenter=M×g1m=1∑Mt=(m−1)g+1∑mg∣∥ xt−x^t∥2−cm∣其中g是组的大小,
c
m
=
∑
t
=
(
m
−
1
)
g
+
1
m
g
∥
x
t
−
x
^
t
∥
2
/
g
c_m=\sum_{t=(m-1)g+1}^{mg}\Vert x_t-\hat x_t\Vert^2/g
cm=∑t=(m−1)g+1mg∥xt−x^t∥2/g表示一个GoF中平均HR重构误差,M表示一个序列中GoF的个数。这个损失鼓励GoF中每个视频帧的HR重构误差近似于平均水平
c
m
c_m
cm。
实验
中心损失的消融实验
预测模块的消融实验
Vid4上的定量评估
包含中心损失的MIMO-VRN方法成为MIMO-VRN-C,†表示采用联合优化的缩放模型。