作者单位:赛峰电子与防务、巴黎萨克雷大学等
论文链接:https://arxiv.org/abs/2112.08950
笔者言: 现有循环VSR对于慢动作的长时间序列的处理并不理想,比如视频监控的应用中。由于不精确隐藏状态叠加,随着时间推移超分辨率结果会产生伪影。针对这个问题,本文从Lipschitz稳定性的角度分析并对VSR进行约束来稳定推理过程。
看点
循环VSR模型在推理小动作范围的长视频序列时(其中一些场景几乎没有移动),循环处理产生偏差导致高频伪影。本文首先构造了一个长时间序列数据集 — Quasi-Static,然后在这个数据集上揭示了这种不稳定性。通过Lipschitz稳定性理论,本文提出了一个稳定且有竞争力的循环VSR网络(Middle Recurrent Video Super-ResolutionM,RVSR)来解决上述问题。
方法
由于计算和内存的限制,以及梯度消失和爆炸,循环VSR模型通常在7到12帧上进行训练。然后它们被用于推理任意长度序列。如下图所示,本文发现当推断低运动的长视频序列时(场景几乎不移动,e.g.准静态的相机),循环VSR网络会产生高频伪影。
这种意想不到的行为对于一些现实应用可能是至关重要的,比如在视频监控中,摄像机和场景都长时间保持静态。
循环VSR的稳定性
先介绍一下Lipschitz连续,满足如下性质的任意连续函数
f
(
x
)
f(x)
f(x)称为L-Lipschitz:
∣
∣
f
(
x
2
)
−
f
(
x
1
)
∣
∣
⩽
L
∣
∣
x
2
−
x
1
∣
∣
||f(x_2)-f(x_1)||\leqslant L||x_2-x_1||
∣∣f(x2)−f(x1)∣∣⩽L∣∣x2−x1∣∣可以看出满足K-Lipschitz的函数在任意两点之间的连线斜率小于等于L,那么也就是函数任意点的导数也小于等于L。VSR中,循环信息
h
t
h_t
ht和输出图像
y
^
t
\hat y_t
y^t在时间步t更新如下:
{
h
t
=
ϕ
L
(
h
t
−
1
,
x
t
)
y
^
t
=
ψ
(
h
t
)
\left\{\begin{array}{l} h_{t}=\phi^{L}\left(h_{t-1}, x_{t}\right) \\ \hat{y}_{t}=\psi\left(h_{t}\right) \end{array}\right.
{ht=ϕL(ht−1,xt)y^t=ψ(ht)当
ϕ
L
\phi^{L}
ϕL收缩于
h
h
h,循环模型被认为是Lipschitz稳定的。假设
ϕ
L
\phi^{L}
ϕL由K个卷积层组成,其中有ReLU相互间隔。每个卷积层都可以用一个权重矩阵进行编码,权重矩阵由该层的核张量得到,是双块循环矩阵的块矩阵。由于ReLU的Lipschitz常数为1,L的数值为所有权重矩阵的谱范数乘积。
约束1:硬Lipschitz约束(HL) :
∀
k
∈
[
1
,
K
]
,
∣
∣
W
k
∣
∣
≤
1
∀k ∈ [1, K], ||W_k|| ≤ 1
∀k∈[1,K],∣∣Wk∣∣≤1。上式中的上界大多高估了L。例如,
ϕ
L
\phi^{L}
ϕL由权重矩阵
W
1
W_1
W1和
W
2
W_2
W2组成,则
L
=
∣
∣
W
1
∣
∣
⋅
∣
∣
W
2
∣
∣
L = ||W_1||·||W_2||
L=∣∣W1∣∣⋅∣∣W2∣∣的唯一情况是
∣
∣
W
1
∣
∣
||W_1||
∣∣W1∣∣的第一个右奇异向量与
W
2
W_2
W2的第一个左奇异向量对齐。这种约束过于严格。
约束2:软Lipschitz约束(SL) :
∀
k
∈
[
1
,
K
]
,
∣
∣
W
k
∣
∣
=
α
>
1
∀k∈[1,K],||W_k||=α>1
∀k∈[1,K],∣∣Wk∣∣=α>1且最小化
s
r
a
n
k
(
W
k
)
srank(W_k)
srank(Wk),其中
s
r
a
n
k
srank
srank为稳定秩。稳定秩是秩算子在矩阵的小扰动下稳定的近似。这种软约束在理论上不能保证Lipschitz稳定性,因此验证其不发散性是很重要的。
为了加强这些约束,可以在训练阶段对卷积层应用稳定秩归一化 (SRNL):将该层矩阵的谱范数设置为α,并在训练过程中最小化矩阵的稳定秩β。当β = 1时,相当于对矩阵进行谱归一化。在训练结束后,测试之前需要进行规范化步骤,因此算法在运行时和推断时不会引入任何开销和模型大小。
无约束稳定循环VSR
将SRNL应用于 ( α , β ) = ( 1.0 , 1.0 ) (α,β) =(1.0,1.0) (α,β)=(1.0,1.0)的RLSP,这导致了一个稳定的网络,但VSR性能较差。这是因为最终的架构被限制为全局1-Lipschitz,而一个成功的超分函数不可能是1-Lipschitz的,因为一些频率需要增强。为此,本文定义了一种新的循环VSR网络,该网络在长序列上稳定且具有竞争力,如下: { z t = ξ ( X t ) h t = ϕ L ( h t − 1 , z t ) y ^ t = ψ ( h t ) \left\{\begin{array}{l} z_{t}=\xi\left(X_{t}\right) \\ h_{t}=\phi^{L}\left(h_{t-1}, z_{t}\right) \\ \hat{y}_{t}=\psi\left(h_{t}\right) \end{array}\right. ⎩ ⎨ ⎧zt=ξ(Xt)ht=ϕL(ht−1,zt)y^t=ψ(ht)其中 z t z_t zt为特征, ϕ L \phi^{L} ϕL由硬Lipschitz约束。本网络的内部循环的所有层都是收缩的,这保证了它随着时间的推移的稳定性。这种网络在Lipschitz连续性方面不受全局约束,因为它的输入和输出网络是非收缩的,可以保持其充分的表达性。大部分的反卷积任务是通过 ξ ξ ξ和 ψ ψ ψ来完成的。
MRVSR
本文设计了一个新的网络MRVSR来实现上述过程。如下图所示,结构很简单,由卷积和ReLU构成。
Quasi-Static测试集
本文引入了一种新的长序列测试集,其中相机是准静态的,前景物体是移动的。它从vimeo.com和youtube.com下载视频,并提取了4个序列。其中前两个是Full HD和HD Ready,后两个是4K。HD和4K序列分别下采样2和4倍。这4个序列在帧数上分别有以下长度:379,379,379和172。它们构成Quasi-Static测试数据集。此外,第一个序列的视频包含更大数量的帧,称为 1 − X L 1-XL 1−XL,包含8782帧。所有这些序列都可以在https://github.com/bjmch/MRVSR上得到。
实验
在处理的帧数量相对较少之前,现有的循环网络(RLSP, RSDN和FRVSR)的性能是最优的,仍然比基线模型更好。但在某一点上,它们的性能下降,变得比基线模型更差,这表明递归在每一帧都集成了有害信息。
在Vid4上的平均PSNR,模型大小和运行时间,可以看到MRVSR在短时间序列上并不理想
Quasi-Static测试集的第一个序列的第376帧的定性评估