CVPR2022 | 利用Lipschitz约束来稳定循环VSR的推理

WangsyUQ

于 2022-09-07 21:51:12 发布

阅读量415

点赞数 1

分类专栏：视频超分(VSR) 投稿文章文章标签：深度学习人工智能计算机视觉

本文链接：https://blog.csdn.net/Srhyme/article/details/126269407

版权

视频超分(VSR) 同时被 2 个专栏收录

54 篇文章 103 订阅

订阅专栏

投稿文章

41 篇文章 4 订阅

订阅专栏

文章探讨了循环视频超分辨率（VSR）模型在处理长时间慢动作序列时出现的高频伪影问题。通过Lipschitz稳定性理论，提出了一种新的稳定循环VSR网络——MiddleRecurrentVideoSuper-ResolutionM（MRVSR），并引入了Quasi-Static测试集来验证模型性能。实验表明，现有的循环网络在处理长序列时性能下降，而MRVSR在网络稳定性和性能之间找到了平衡。

摘要由CSDN通过智能技术生成

在这里插入图片描述
作者单位：赛峰电子与防务、巴黎萨克雷大学等
论文链接：https://arxiv.org/abs/2112.08950
笔者言： 现有循环VSR对于慢动作的长时间序列的处理并不理想，比如视频监控的应用中。由于不精确隐藏状态叠加，随着时间推移超分辨率结果会产生伪影。针对这个问题，本文从Lipschitz稳定性的角度分析并对VSR进行约束来稳定推理过程。

看点

循环VSR模型在推理小动作范围的长视频序列时（其中一些场景几乎没有移动），循环处理产生偏差导致高频伪影。本文首先构造了一个长时间序列数据集 — Quasi-Static，然后在这个数据集上揭示了这种不稳定性。通过Lipschitz稳定性理论，本文提出了一个稳定且有竞争力的循环VSR网络（Middle Recurrent Video Super-ResolutionM，RVSR）来解决上述问题。

方法

由于计算和内存的限制，以及梯度消失和爆炸，循环VSR模型通常在7到12帧上进行训练。然后它们被用于推理任意长度序列。如下图所示，本文发现当推断低运动的长视频序列时（场景几乎不移动，e.g.准静态的相机），循环VSR网络会产生高频伪影。
在这里插入图片描述

这种意想不到的行为对于一些现实应用可能是至关重要的，比如在视频监控中，摄像机和场景都长时间保持静态。

循环VSR的稳定性

先介绍一下Lipschitz连续，满足如下性质的任意连续函数 $f (x)$ 称为L-Lipschitz:
$||f(x_2)-f(x_1)||\leqslant L||x_2-x_1||$ 可以看出满足K-Lipschitz的函数在任意两点之间的连线斜率小于等于L，那么也就是函数任意点的导数也小于等于L。VSR中，循环信息 $h_t$ 和输出图像 $\hat y_t$ 在时间步t更新如下: $\left\{\begin{array}{l} h_{t}=\phi^{L}\left(h_{t-1}, x_{t}\right) \\ \hat{y}_{t}=\psi\left(h_{t}\right) \end{array}\right.$ 当 $\phi^{L}$ 收缩于 $h$ ，循环模型被认为是Lipschitz稳定的。假设 $\phi^{L}$ 由K个卷积层组成，其中有ReLU相互间隔。每个卷积层都可以用一个权重矩阵进行编码，权重矩阵由该层的核张量得到，是双块循环矩阵的块矩阵。由于ReLU的Lipschitz常数为1，L的数值为所有权重矩阵的谱范数乘积。
约束1：硬Lipschitz约束(HL) ： $k ∈ [1, K], ||W_k|| ≤ 1$ 。上式中的上界大多高估了L。例如， $\phi^{L}$ 由权重矩阵 $W_1$ 和 $W_2$ 组成，则 $L = ||W_1||·||W_2||$ 的唯一情况是 $W_1||$ 的第一个右奇异向量与 $W_2$ 的第一个左奇异向量对齐。这种约束过于严格。
约束2：软Lipschitz约束(SL) ： $k∈[1,K],||W_k||=α>1$ 且最小化 $srank(W_k)$ ，其中 $sr ank$ 为稳定秩。稳定秩是秩算子在矩阵的小扰动下稳定的近似。这种软约束在理论上不能保证Lipschitz稳定性，因此验证其不发散性是很重要的。
为了加强这些约束，可以在训练阶段对卷积层应用稳定秩归一化 (SRNL)：将该层矩阵的谱范数设置为α，并在训练过程中最小化矩阵的稳定秩β。当β = 1时，相当于对矩阵进行谱归一化。在训练结束后，测试之前需要进行规范化步骤，因此算法在运行时和推断时不会引入任何开销和模型大小。

无约束稳定循环VSR

将SRNL应用于 $(α ， β) = (1.0, 1.0)$ 的RLSP，这导致了一个稳定的网络，但VSR性能较差。这是因为最终的架构被限制为全局1-Lipschitz，而一个成功的超分函数不可能是1-Lipschitz的，因为一些频率需要增强。为此，本文定义了一种新的循环VSR网络，该网络在长序列上稳定且具有竞争力，如下： $\left\{\begin{array}{l} z_{t}=\xi\left(X_{t}\right) \\ h_{t}=\phi^{L}\left(h_{t-1}, z_{t}\right) \\ \hat{y}_{t}=\psi\left(h_{t}\right) \end{array}\right.$ 其中 $z_t$ 为特征， $\phi^{L}$ 由硬Lipschitz约束。本网络的内部循环的所有层都是收缩的，这保证了它随着时间的推移的稳定性。这种网络在Lipschitz连续性方面不受全局约束，因为它的输入和输出网络是非收缩的，可以保持其充分的表达性。大部分的反卷积任务是通过 $ξ$ 和 $ψ$ 来完成的。

MRVSR

本文设计了一个新的网络MRVSR来实现上述过程。如下图所示，结构很简单，由卷积和ReLU构成。
在这里插入图片描述

Quasi-Static测试集

本文引入了一种新的长序列测试集，其中相机是准静态的，前景物体是移动的。它从vimeo.com和youtube.com下载视频，并提取了4个序列。其中前两个是Full HD和HD Ready，后两个是4K。HD和4K序列分别下采样2和4倍。这4个序列在帧数上分别有以下长度:379,379,379和172。它们构成Quasi-Static测试数据集。此外，第一个序列的视频包含更大数量的帧，称为 $1 - X L$ ，包含8782帧。所有这些序列都可以在https://github.com/bjmch/MRVSR上得到。

实验

在处理的帧数量相对较少之前，现有的循环网络(RLSP, RSDN和FRVSR)的性能是最优的，仍然比基线模型更好。但在某一点上，它们的性能下降，变得比基线模型更差，这表明递归在每一帧都集成了有害信息。
在这里插入图片描述
在Vid4上的平均PSNR，模型大小和运行时间，可以看到MRVSR在短时间序列上并不理想

Quasi-Static测试集的第一个序列的第376帧的定性评估
在这里插入图片描述

WangsyUQ

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
CVPR2022 | 利用Lipschitz约束来稳定循环VSR的推理

作者单位：赛峰电子与防务、巴黎萨克雷大学等现有循环VSR对于慢动作的长时间序列的处理并不理想，比如视频监控的应用中。由于不精确隐藏状态叠加，随着时间推移超分辨率结果会产生伪影。针对这个问题，本文从Lipschitz稳定性的角度分析并对VSR进行约束来稳定推理过程。循环VSR模型在推理小动作范围的长视频序列时（其中一些场景几乎没有移动），循环处理产生偏差导致高频伪影。本文首先构造了一个长时间序列数据集 — Quasi-Static，然后在这个数据集上揭示了这种不稳定性。
复制链接

扫一扫

专栏目录