Space-Time Video Super-Resolution (STVSR) 问题定义:
从一个低像素低帧率恢复出高帧率高分辨率的视频。
1.Zooming Slow-Mo: Fast and Accurate One-Stage Space-Time Video Super-Resolution
1.1 总结
之前的一些方法采用手工制作的正则化方法,并做出比较强的假设,这些方法限制了模型的容量和扩展到更多样的模式,同时计算量大。
现在的一些深度学习的方法,一种直接的方法是组合对视频插针和视频超分,形成一个two-stage方式。先对LR视频进行查证,然后重建高分辨率图像。然而这两部分是结合在一起的,使用two-stage的方式将这两部分分开。
作者提出了一个统一的one-stage STVSR框架通过做时间和空间的超分。提出了自适应学习一个可变形的特征插值函数来临时插值中间LR帧特征,而不是像两阶段方法那样合成像素级LR帧。插值函数可以集合local temporal contexts,可以处理复杂的运动。同时引入了一个新的可变性的ConvLSRM模型利用全局纹理信息,并同时进行时空对齐和聚合。然后通过一个深度SR重建网络从聚合的LR特征重建HR视频。
1.2 方法
任务设定:
给了低帧低分辨率视频序列:
I
L
=
{
I
2
t
−
1
L
}
t
=
1
n
+
1
I^{L} = \{I_{2t-1}^L\}_{t=1}^{n+1}
IL={I2t−1L}t=1n+1,重建出对应的高分辨率慢动作视频序列:
I
H
=
{
I
t
H
}
t
=
1
2
n
+
1
I^H = \{I_t^H\}_{t=1}^{2n+1}
IH={ItH}t=12n+1。对于中间从帧
{
I
2
t
H
}
t
=
1
n
\{I_{2t}^H\}_{t=1}^n
{I2tH}t=1n,没有对应的低像素输入。
作者提出了一个一阶段的空间时间超分框架。包括了四部分:
- feature extractor
- frame feature temporal interpolation module
- deformable ConvLSTM
- HR frame reconstructor
1.2.1 Frame Feature Temporal Interpolation
这个模块的设计如下所示。以往的方法是先得到中间帧的低分辨率图像,其实就是把视频超分分成了两部分。这个网络是直接得到中间帧的特征,然后通过上一帧,中间帧和下一帧的低分辨率特征做超分。
所以这个模块主要是做中间层的特征。让前一帧得到一个前向运动信息,后一帧得到后向运动信息,合在一起得到中间帧的特征,所以得到了两个offset field。然后通过一个混合函数得到最后的特征。
F
2
L
=
α
∗
T
1
(
F
1
L
,
Φ
1
)
+
β
∗
T
3
(
F
3
L
,
Φ
3
)
F_2^L = \alpha * T_1(F_1^L, \Phi_1) + \beta * T_3(F_3^L,\Phi_3)
F2L=α∗T1(F1L,Φ1)+β∗T3(F3L,Φ3)
这里觉得还挺不错的,
α
\alpha
α 和
β
\beta
β 是两个可学习的
1
×
1
1 \times 1
1×1 卷积核。然后得到了中间帧的特征~~
1.2.2 Deformable ConvLSTM
使用一个sequence-to-sequene mapping,除了从对应的低像素图片做超分,还集合了相邻帧的时序特征。使用了ConvLSTM结构。然而convLSTM只能通过小的感受野隐式捕获运动信息。这个时候
h
t
−
1
h_{t-1}
ht−1和
c
t
−
1
c_{t-1}
ct−1传递的是不匹配的噪声,而不是全局信息。重建的图像会有伪影。于是作者显示地嵌入了一个具有可变形对齐的状态更新单元。
g
h
g_h
gh和
g
c
g_c
gc卷积运算,
Δ
p
t
h
\Delta p_t^h
Δpth 和
Δ
p
t
c
\Delta p_t^c
Δptc是预测的偏差,
h
t
−
1
a
h_{t-1}^a
ht−1a和
c
t
−
1
a
c_{t-1}^a
ct−1a是对齐的隐藏状态和单元格状态。相比以往的,这里显示地将
h
t
−
1
h_{t-1}
ht−1和
c
t
−
1
c_{t-1}
ct−1与
F
t
L
F_t^L
FtL对齐。此外,为了充分挖掘时间信息,我们以双向方式使用可变形ConvLSTM。将时间反转的特征映射到同一个可变形的convLSTM中,并将前向和后向的隐藏状态串联起来作为最终的隐藏状态ht,用于HR帧重建。
1.2.3 Frame Reconstruction
l r e c = ∣ ∣ I t G T − I t H ∣ ∣ 2 + ϵ 2 l_{rec} = \sqrt{||I_{t}^{GT} - I_t^H||^2 + \epsilon^2} lrec=∣∣ItGT−ItH∣∣2+ϵ2
2. Video Super-resolution with Temporal Group Attention
2.1 总结
作者提出一个新的方法,可以有效地将时间信息以分层的方式合并。输入的序列被分成几个组,每一个组对应一个帧率,这些组提供了恢复丢失细节的补充信息,之后进一步与注意模块和深层组内融合模块集成在一起。
2.2 方法
给定一个连续的低分辨率视频序列,
I
t
L
I_t^L
ItL和
2
N
2N
2N个相邻的帧
{
I
t
−
N
L
:
I
t
−
1
L
,
I
t
+
1
L
:
I
t
+
N
L
}
\{I_{t-N}^L: I_{t-1}^L,I_{t+1}^L:I_{t+N}^L\}
{It−NL:It−1L,It+1L:It+NL},通过相邻帧的时空信息重现出高分辨率的视频序列 。
I
^
t
\hat I_t
I^t。
2.2.1 Temporal Group Attention
输入不同帧率的视频序列
Temporal Grouping
将原来
2
N
2N
2N帧图片分成
{
G
1
,
.
.
.
,
G
n
}
,
n
∈
[
1
:
N
]
\{G_1, ..., G_n\}, n \in [1:N]
{G1,...,Gn},n∈[1:N]组,每一组记成
G
n
=
{
I
t
−
n
L
,
I
t
L
,
I
t
+
n
L
}
G_n = \{I_{t-n}^L, I_t^L, I_{t+n}^L\}
Gn={It−nL,ItL,It+nL}。所以网络可以泛化到任意帧的输入。这样可以更好地提取特征,特别是有一些帧有遮挡现象之类的。
Intra-group Fusion
Inter-group Fusion with Temporal Attention
对每个组,得到一个一通道的特征层
F
n
g
F_n^g
Fng,计算每个channel的权重,然后再时间轴上使用softmax根据
F
n
g
F_n^g
Fng计算attention maps。最后attention weighted feature可以这样计算得到
F
^
n
g
=
M
n
⊙
F
n
g
,
n
∈
[
1
:
N
]
\hat F_n^g = M_n ⊙ F_n^g, n\in[1:N]
F^ng=Mn⊙Fng,n∈[1:N]
2.2.2 Fast Spatial Alignment
先检测出interest point,然后再建立点之间的对应关系。以往对每个点都做的光流法,会比较容易引进pixel-level的失真,同时是独立地做邻帧和参考帧的预测,会带来很多冗余的计算。
3.TDAN: Temporally-Deformable Alignment Network for Video Super-Resolution
3.1 总结
对于VSR,有个重要的问题时如何对齐supporting frames 和 reference frames。之前主要有光流估计和image warp操作,这些方法容易引进伪影。使用光流方法也不易得到高质量的运动估计。即使有比较准确的运动场,imagewarp会产生伪影。作者采用了一个不依赖于光流的方法。同时,由于固定核设置,CNN在对几何变形有固有的局限,以往也有通过可变形卷积的操作实现高层任务。所以作者引进了可变形卷积。
3.2 方法
问题设置:
输入为
I
t
L
R
∈
R
H
×
W
×
C
I_t^{LR}\in R^{H\times W\times C}
ItLR∈RH×W×C,输出为
I
t
H
R
∈
R
s
H
×
s
W
×
C
I_t^{HR} \in R^{sH \times sW \times C}
ItHR∈RsH×sW×C,
s
s
s是上采样倍数。输入除了
I
t
L
R
I_t^{LR}
ItLR,还有supporting LR frames
{
I
t
−
N
L
R
,
.
.
.
,
I
t
−
1
L
R
,
I
t
+
1
L
R
,
.
.
.
,
I
t
+
N
L
R
}
\{I_{t-N}^{LR}, ... ,I_{t-1}^{LR},I_{t+1}^{LR},...,I_{t+N}^{LR}\}
{It−NLR,...,It−1LR,It+1LR,...,It+NLR},总共输入了连续的
2
N
+
1
2N + 1
2N+1 帧,网络包括一个时序变形对齐网络(TDAN)和一个超分重建网络。最后得到目标帧的超分图。
3.2.1 Temporally-Deformable Alignment Network
将support frame序列和参考帧对齐。包括三个部分
- feature extraction
- deformable alignment
- aligned frame reconstruction 这里还用了一个对齐loss作为让变形对齐模块可以采样到有用的信息。
3.2.2 SR Reconstruction Network
- temporal fusion 先做concatenate,然后卷
- nonlinear mapping 将shadow融合特征作为输入然后得到deep feature
- HR frame reconstruction 提取特征后,通过ESPCN的方法实现重建
3.2.3 Loss
L
a
l
i
g
n
=
1
2
N
∑
i
=
t
−
N
,
≠
t
t
+
N
∣
∣
I
i
L
R
′
−
I
t
L
R
∣
∣
2
2
L_{align} = \frac{1}{2N}\sum_{i=t-N,\neq t}^{t+N}||I_i^{LR^{'}} - I_t^{LR}||_2^2
Lalign=2N1i=t−N,=t∑t+N∣∣IiLR′−ItLR∣∣22
L
s
r
=
∣
∣
I
t
H
R
′
−
I
t
H
R
∣
∣
2
2
L_{sr} = ||I_t^{HR'} - I_t^{HR}||_2^2
Lsr=∣∣ItHR′−ItHR∣∣22
L
=
L
a
l
i
g
n
+
L
s
r
L = L_{align} + L_{sr}
L=Lalign+Lsr
第一个loss没有label,所以作者将reference frame的特征作为gt。