CVPR2022 | 利用Lipschitz约束来稳定循环VSR的推理

文章探讨了循环视频超分辨率(VSR)模型在处理长时间慢动作序列时出现的高频伪影问题。通过Lipschitz稳定性理论,提出了一种新的稳定循环VSR网络——MiddleRecurrentVideoSuper-ResolutionM(MRVSR),并引入了Quasi-Static测试集来验证模型性能。实验表明,现有的循环网络在处理长序列时性能下降,而MRVSR在网络稳定性和性能之间找到了平衡。
摘要由CSDN通过智能技术生成

在这里插入图片描述
作者单位:赛峰电子与防务、巴黎萨克雷大学等
论文链接:https://arxiv.org/abs/2112.08950
笔者言: 现有循环VSR对于慢动作的长时间序列的处理并不理想,比如视频监控的应用中。由于不精确隐藏状态叠加,随着时间推移超分辨率结果会产生伪影。针对这个问题,本文从Lipschitz稳定性的角度分析并对VSR进行约束来稳定推理过程。

看点

循环VSR模型在推理小动作范围的长视频序列时(其中一些场景几乎没有移动),循环处理产生偏差导致高频伪影。本文首先构造了一个长时间序列数据集 — Quasi-Static,然后在这个数据集上揭示了这种不稳定性。通过Lipschitz稳定性理论,本文提出了一个稳定且有竞争力的循环VSR网络(Middle Recurrent Video Super-ResolutionM,RVSR)来解决上述问题。

方法

由于计算和内存的限制,以及梯度消失和爆炸,循环VSR模型通常在7到12帧上进行训练。然后它们被用于推理任意长度序列。如下图所示,本文发现当推断低运动的长视频序列时(场景几乎不移动,e.g.准静态的相机),循环VSR网络会产生高频伪影。
在这里插入图片描述

这种意想不到的行为对于一些现实应用可能是至关重要的,比如在视频监控中,摄像机和场景都长时间保持静态。

循环VSR的稳定性

先介绍一下Lipschitz连续,满足如下性质的任意连续函数 f ( x ) f(x) f(x)称为L-Lipschitz:
∣ ∣ f ( x 2 ) − f ( x 1 ) ∣ ∣ ⩽ L ∣ ∣ x 2 − x 1 ∣ ∣ ||f(x_2)-f(x_1)||\leqslant L||x_2-x_1|| ∣∣f(x2)f(x1)∣∣L∣∣x2x1∣∣可以看出满足K-Lipschitz的函数在任意两点之间的连线斜率小于等于L,那么也就是函数任意点的导数也小于等于L。VSR中,循环信息 h t h_t ht和输出图像 y ^ t \hat y_t y^t在时间步t更新如下: { h t = ϕ L ( h t − 1 , x t ) y ^ t = ψ ( h t ) \left\{\begin{array}{l} h_{t}=\phi^{L}\left(h_{t-1}, x_{t}\right) \\ \hat{y}_{t}=\psi\left(h_{t}\right) \end{array}\right. {ht=ϕL(ht1,xt)y^t=ψ(ht) ϕ L \phi^{L} ϕL收缩于 h h h,循环模型被认为是Lipschitz稳定的。假设 ϕ L \phi^{L} ϕL由K个卷积层组成,其中有ReLU相互间隔。每个卷积层都可以用一个权重矩阵进行编码,权重矩阵由该层的核张量得到,是双块循环矩阵的块矩阵。由于ReLU的Lipschitz常数为1,L的数值为所有权重矩阵的谱范数乘积。
约束1:硬Lipschitz约束(HL) ∀ k ∈ [ 1 , K ] , ∣ ∣ W k ∣ ∣ ≤ 1 ∀k ∈ [1, K], ||W_k|| ≤ 1 k[1,K],∣∣Wk∣∣1。上式中的上界大多高估了L。例如, ϕ L \phi^{L} ϕL由权重矩阵 W 1 W_1 W1 W 2 W_2 W2组成,则 L = ∣ ∣ W 1 ∣ ∣ ⋅ ∣ ∣ W 2 ∣ ∣ L = ||W_1||·||W_2|| L=∣∣W1∣∣∣∣W2∣∣的唯一情况是 ∣ ∣ W 1 ∣ ∣ ||W_1|| ∣∣W1∣∣的第一个右奇异向量与 W 2 W_2 W2的第一个左奇异向量对齐。这种约束过于严格。
约束2:软Lipschitz约束(SL) ∀ k ∈ [ 1 , K ] , ∣ ∣ W k ∣ ∣ = α > 1 ∀k∈[1,K],||W_k||=α>1 k[1,K],∣∣Wk∣∣=α>1且最小化 s r a n k ( W k ) srank(W_k) srank(Wk),其中 s r a n k srank srank为稳定秩。稳定秩是秩算子在矩阵的小扰动下稳定的近似。这种软约束在理论上不能保证Lipschitz稳定性,因此验证其不发散性是很重要的。
为了加强这些约束,可以在训练阶段对卷积层应用稳定秩归一化 (SRNL):将该层矩阵的谱范数设置为α,并在训练过程中最小化矩阵的稳定秩β。当β = 1时,相当于对矩阵进行谱归一化。在训练结束后,测试之前需要进行规范化步骤,因此算法在运行时和推断时不会引入任何开销和模型大小。

无约束稳定循环VSR

将SRNL应用于 ( α , β ) = ( 1.0 , 1.0 ) (α,β) =(1.0,1.0) (αβ)=(1.0,1.0)的RLSP,这导致了一个稳定的网络,但VSR性能较差。这是因为最终的架构被限制为全局1-Lipschitz,而一个成功的超分函数不可能是1-Lipschitz的,因为一些频率需要增强。为此,本文定义了一种新的循环VSR网络,该网络在长序列上稳定且具有竞争力,如下: { z t = ξ ( X t ) h t = ϕ L ( h t − 1 , z t ) y ^ t = ψ ( h t ) \left\{\begin{array}{l} z_{t}=\xi\left(X_{t}\right) \\ h_{t}=\phi^{L}\left(h_{t-1}, z_{t}\right) \\ \hat{y}_{t}=\psi\left(h_{t}\right) \end{array}\right. zt=ξ(Xt)ht=ϕL(ht1,zt)y^t=ψ(ht)其中 z t z_t zt为特征, ϕ L \phi^{L} ϕL由硬Lipschitz约束。本网络的内部循环的所有层都是收缩的,这保证了它随着时间的推移的稳定性。这种网络在Lipschitz连续性方面不受全局约束,因为它的输入和输出网络是非收缩的,可以保持其充分的表达性。大部分的反卷积任务是通过 ξ ξ ξ ψ ψ ψ来完成的。

MRVSR

本文设计了一个新的网络MRVSR来实现上述过程。如下图所示,结构很简单,由卷积和ReLU构成。
在这里插入图片描述

Quasi-Static测试集

本文引入了一种新的长序列测试集,其中相机是准静态的,前景物体是移动的。它从vimeo.com和youtube.com下载视频,并提取了4个序列。其中前两个是Full HD和HD Ready,后两个是4K。HD和4K序列分别下采样2和4倍。这4个序列在帧数上分别有以下长度:379,379,379和172。它们构成Quasi-Static测试数据集。此外,第一个序列的视频包含更大数量的帧,称为 1 − X L 1-XL 1XL,包含8782帧。所有这些序列都可以在https://github.com/bjmch/MRVSR上得到。

实验

在处理的帧数量相对较少之前,现有的循环网络(RLSP, RSDN和FRVSR)的性能是最优的,仍然比基线模型更好。但在某一点上,它们的性能下降,变得比基线模型更差,这表明递归在每一帧都集成了有害信息。
在这里插入图片描述
在Vid4上的平均PSNR,模型大小和运行时间,可以看到MRVSR在短时间序列上并不理想
在这里插入图片描述

Quasi-Static测试集的第一个序列的第376帧的定性评估
在这里插入图片描述

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值