视频修复:无监督流对齐的序列对序列学习方法S2SVR(ICML 2022)

关注公众号,发现CV技术之美

本文将 Seq2Seq 的架构引入到了视频超分中,其次针对光流不准的问题,之前的文章选择使用DCN进行替代,本篇论文『Unsupervised Flow-Aligned Sequence-to-Sequence Learning for Video Restoration 』从另一个角度出发,通过知识蒸馏的方法来训练更准的光流,想法很好但是相比于DCN的效果还有待进一步的优化。

详细信息如下:

a8c77d11cf483255212a4ff8517b05c0.png

  • 作者单位:清华大学深研院、华为诺亚方舟Lab、ETH Zürich

  • 论文链接:https://arxiv.org/pdf/2205.10195

  • 项目链接:https://github.com/linjing7/VR-Baseline

      01      

看点

如何正确建模视频序列中的帧间关系是视频恢复中一个重要但尚未解决的问题。本研究中提出一种无监督流对齐Seq2Seq模型来解决这个问题。本文首次探索了在自然语言处理领域已被证明具有序列建模能力的Seq2Seq模型。优化的序列化建模显示了捕获帧之间的远程依赖关系的潜力。

另一方面,使用提出的无监督蒸馏损失训练流估计器,这可以缓解以前基于流的方法的数据差异和不准确的退化光流问题。通过可靠的光流,我们可以在多个帧之间建立精确的对应关系,提高序列对序列模型的潜力。以下笔者将以VSR的角度来对本文进行解析。

bea00569c89fdd98706d606623c72070.png

      02      

方法

Overview

S2SVR由编码器、解码器、局部注意和光流估计四个组件构成,如下图所示。

1a52ad9233efe8ea4ac190654272cd65.png

编解码器

首先,编码器按顺序读取LR帧并将其转换成一列潜在向量,其中,表示i时刻的LR帧,表示编码器,由堆叠的ResConvGRU构成。

给定潜在向量列表,解码器产生输出序列Y,其中,表示解码器,由ResConvGRU和前馈网络组成。ResConvGRU为下一步预测生成隐藏状态,通过前馈网络生成输出帧,表示为:

其中表示ResConvGRU,表示前馈网络,为潜在向量经过局部注意而生成的上下文向量。

局部注意

如上图(a)所示,注意模块允许解码器关注原始序列的不同区域,上下文向量被计算为潜在向量的加权和:

其中是一个对位置的输入与位置的输出的匹配程度进行评分的注意模块,采用一个隐含层的前馈网络:

402 Payment Required

其中和表示前馈网络的第一个和第二个卷积层。

ResConvGRU

编解码器中都使用了一个深度堆叠的ConvGRU,考虑到视频的特点对原有的ConvGRU做了两处修改。首先,在ConvGRU后将多个残差块拼接在一起。此外,引入栈中残差,如下所示:

402 Payment Required

表示残差块,为ConvGRU,这可以解决消失的梯度问题,允许对长期的时间依赖性建模。

运动补偿与无监督光流估计

为了提高性能,需要在多帧之间建立精确的空间对应关系。本文采用光流估计器进行运动补偿,如上图(b)所示。首先,采用一个流估计器来预测两个连续帧之间的运动。然后扭曲ResConvGRU中的输入隐藏状态至,使其与当前步的输入空间对齐。

以前基于流的运动补偿方法受到合成数据集和真实数据集之间的数据差异以及不准确的LR流的影响。为此,本文提出了一种无监督方案,该方案配备了一种蒸馏损失,以在VSR数据集上训练流估计器,如下图所示:

cc796f816cabd5e76908ff057f9b7188.png

目标是通过训练一个流网络预测两个连续帧的光流以估计出准确的运动信息。首先在HR视频上训练一个参数为θ的教师流估计网络,该网络具有光度损失和平滑损失。然后使用教师估计器来生成伪标签,并在LR视频上训练一个参数为θ的学生流网络,算法如下图所示:

0d500fece081afc961b769aca8c96076.png

其中,教师网络的光度损失是基于两个连续帧中相同物体必须具有相似强度的假设:

其中是图像中的像素坐标,是通过正反向检查的方法来丢弃发生区域上的损失而得到的遮挡掩模。ρ是基于像素的相似性度量,是HR视频中相邻帧的光流场。此外还采用一阶平滑损失来鼓励相邻流的共线性:

基于HR流对于运动补偿更准确的假设,为此使用作为LR流的伪标签,并提出蒸馏损失:

402 Payment Required

其中是上采样操作,学生网络稍后将用作运动补偿的光流估计器,实现中采用了一个轻量级流模型pwclite作为光流网络。

      03      

实验

定量评估

在BI的REDS4上峰值信噪比为31.96dB(BasicVSR++为32.39dB),Vimeo-90K-T的峰值信噪比为37.63dB(VRT为38.20dB)。

a325d759d4bac7718036202103f27719.png

定性评估

03121ce4298518c393122ea97282ca17.png

3111fc527313b933d0b08e14f7b7fb65.png

END

欢迎加入「视频修复」交流群👇备注:Vid

be9f4f9320ad7e8a46f545c08dc11280.png

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值