CVPR2021 | MIMO-VRN:用于视频缩放任务的联合训练策略

WangsyUQ

已于 2022-06-06 22:25:06 修改

阅读量241

点赞数

分类专栏：投稿文章视频超分(VSR) 文章标签：深度学习神经网络计算机视觉

于 2021-09-16 13:47:45 首次发布

本文链接：https://blog.csdn.net/Srhyme/article/details/120217314

版权

视频超分(VSR) 同时被 2 个专栏收录

54 篇文章 103 订阅

订阅专栏

投稿文章

41 篇文章 4 订阅

订阅专栏

在这里插入图片描述
论文链接：https://arxiv.org/abs/2103.14858
代码链接：https://github.com/ding3820/MIMO-VRN
编者言： 本文以视频缩放任务为切入点，将IRN视频超分话化。与normal的VSR不同点在于将降采样也加入学习任务，这或许是后VSR时代一个不错的研究方向。

看点

最近的大多数研究都集中在基于图像的上下采样联合优化方案上，这些方案不考虑时间信息，为此，本文提出了基于耦合层可逆神经网络的两种联合优化方案。长短期记忆视频缩放网络(LSTM-VRN)利用低分辨率视频中的时间信息，对缺失的高频信息进行预测；多输入输出视频缩放网络(MIMO-VRN)是一种同时对一组视频帧进行缩放的策略。它们不仅在定量和定性结果上都优于基于图像的可逆模型，并在视觉质量方面提供可与双三次缩小视频相媲美的LR视频，而且比没有联合优化的视频缩放方法有很大的提升。这项工作是第一次尝试联合优化视频的缩放任务。
在这里插入图片描述

方法

IRN

在介绍本文的方法前，先了解一下在SISR中的相似方法。视频缩放任务将固定的降采样方法转化为可学习的模型，以使LR图像适应联合学习的上采样过程。训练目标通常要求LR图像也适合人类的感知。最近，IRN在这个联合优化任务中引入了一个可逆模型。它能够通过相同的神经网络配置来实现图像的上下采样，它提供了一种方法来明确地建模高斯噪声降采样而丢失的高频信息。IRN的前向模型包括一个二维Haar变换和8个耦合层，如下图所示。通过二维Haar变换，首先将输入的HR帧 $x$ 分解为一个低频分量 $y^{\prime}$ 和三个高频分量 $z^{\prime}$ 。这两个分量随后通过耦合层进行处理，输出视觉上悦目的LR图像 $y$ 和HR图像中固有的互补高频信息 $z$ 。从理论上讲，由于模型是可逆的，反向耦合层可以从y和z无损失地恢复。但在实践中， $z$ 在推断时unavailable。IRN的训练要求 $z$ 遵循高斯分布，以便在推断时，可以得到一个高斯样本 $\hat z$ 来代替缺失的高频分量。本质上IRN是一种基于图像的方法，所以虽然IRN在图像缩放任务上取得了较好的效果，但对于视频缩放并不是最优的。
在这里插入图片描述

Overview

LSTM-VRN和MIMO-VRN的结构如下图所示
在这里插入图片描述

LSTM-VRN

与大多数视频超分辨率技术一样，LSTM-VRN(上图(a))采用SISO策略通过可逆网络的正向模型进行降采样操作，之后采用MISO的上采样方法。具体的说，首先通过一个基于LSTM的预测模块融合当前LR帧 $\hat y_t$ 其相邻帧 $\{\hat y_{t-i}$ , $\hat y_{t+i}\}_{i=1}^L$ ，形成对缺失高频成分 $z_t$ 的估计 $\hat z_t$ ，将 $\hat z_t$ 与 $\hat y_t$ 一起输入进可逆模块重建SR帧 $\hat x_t$ 。其中 $z_t$ 需要从多个LR帧中推算以去决定LR视频中应该保留哪些信息以提升预测效果。在推理时间t时，预测模块前项模式为： $h_t^f=ST-LSTM(f_{t-1},h_{t-1}^f)\\h_t^y=ResidualBlock(\hat y_t)\\a_t= \sigma(W\otimes h_t^y)\\f_t=(1-a_t)\odot h_t^f+a_t\odot h_t^y$ 其中 $\sigma$ 为sigmoid函数， $\otimes$ 为标准卷积， $\odot$ 为矩阵乘法。随后，正向传播的 $f_t$ 与反向传播的 $b_t$ 通过一个1X1的卷积输出预测 $\hat z_t$ 。注意到LSTM-VRN仅利用LR视频帧的时间信息进行缩放，而其降采样仍然是基于SISO的方案，没有利用到HR视频帧的时间信息。

MIMO-VRN

在这里，本文提出了一种新的基本处理单元，称为帧组(Group of Frames, GoF)。首先，将HR视频分解为非重叠的帧组 ${x_t\}_{t=1}^g,\{x_t\}_{t=g+1}^{2g}$ ,…，每个帧组包含g个帧，每个帧组都独立的进行降采样。在一个GoF中，每个视频帧首先使用二维Haar小波单独变换，得到低频分量 $y_t^{\prime}$ 和高频分量 $z_t^{\prime}$ 。然后将整个组输入到耦合层中，通过两个降尺度模块，得到一组量化的LR帧 $\hat\mathcal Y_t$ 和一组高频分量 $\hat\mathcal Z_t$ 。值得注意的是，由于组耦合的性质， $\hat\mathcal Y_t$ 与 $\hat\mathcal Z_t$ 之间不存在一一对应关系。
上采样的过程也是在帧组基础上进行的。如上图(b)所示，本文采用基于残差块的预测模块对对应的LR帧组中缺失的高频分量进行预测。与降采样的帧组输入的概念类似，LR帧组和估计的高频分量组输入进可逆网络以逆模式运行。这种基于MIMO的上采样方法可以同时重构一组HR帧。

损失

LSTM-VRN的训练包含两个损失函数。首先，为了确保LR视频具有视觉上的美观性，将LR损失定义为： $\mathcal L_{LR}=\frac{1}{N}\sum_{t=1}^{N}||x_t^{bic}-\hat y_t||^2$ 其次，为了使HR重构质量最大化，使用Charbonnier来定义HR损失 $\mathcal L_{HR}$ 。总的损失为 $\mathcal L_{total}=\mathcal L_{HR}+λ\mathcal L_{LR}$ ，其中λ为超参数。
MIMO-VRN的训练与LSTM-VRN具有相同的 $L_{HR}$ 和 $L_{LR}$ 损失，因为它们有共同的优化目标。然而，我们注意到MIMO-VRN往往在GoF的视频帧上具有不均匀的HR重建质量(见消融实验)。为了缓解GoF中的质量波动，在MIMO-VRN中引入了以下中心损失: $\mathcal L_{center}=\frac{1}{M\times g}\sum_{m=1}^M\sum_{t=(m-1)g+1}^{mg}\vert\Vert\ x_t-\hat x_t\Vert^2-c_m\vert$ 其中g是组的大小， $c_m=\sum_{t=(m-1)g+1}^{mg}\Vert x_t-\hat x_t\Vert^2/g$ 表示一个GoF中平均HR重构误差，M表示一个序列中GoF的个数。这个损失鼓励GoF中每个视频帧的HR重构误差近似于平均水平 $c_m$ 。

实验

中心损失的消融实验

在这里插入图片描述

预测模块的消融实验

在这里插入图片描述

Vid4上的定量评估

包含中心损失的MIMO-VRN方法成为MIMO-VRN-C，†表示采用联合优化的缩放模型。
在这里插入图片描述

WangsyUQ

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
CVPR2021 | MIMO-VRN:用于视频缩放任务的联合训练策略

论文链接：https://arxiv.org/abs/2103.14858代码链接：https://github.com/ding3820/MIMO-VRN编者言：本文以视频缩放任务为切入点，将IRN视频超分话化。与normal的VSR不同点在于将降采样也加入学习任务，这或许是后VSR时代一个不错的研究方向。最近的大多数研究都集中在基于图像的上下采样联合优化方案上，这些方案不考虑时间信息，为此，本文提出了基于耦合层可逆神经网络的两种联合优化方案。长短期记忆视频缩放网络(LSTM-VRN)利用低分辨率视
复制链接

扫一扫