用于视频去模糊的流导向稀疏转换器

本文提出了一种新型视频去模糊方法——流导向稀疏Transformer(FGST),利用光流引导的自我注意模块处理长程依赖和非局部自相似性。FGST在减少计算成本的同时,避免了全局Transformer的冗余采样和局部Transformer的有限接受域问题,实现在DVD和GOPRO数据集上超越SOTA的性能。
摘要由CSDN通过智能技术生成

Flow-Guided Sparse Transformer for Video Deblurring

参考翻译:ICML 2022 | 清华提出FGST:首个视频去模糊的Transformer

摘要:

利用时空邻域中相似且清晰的场景块是视频去模糊的关键。然而,基于cnn的方法在获取远程依赖关系和建模非局部自相似性方面存在局限性。

在本文中,我们提出了一种新的视频去模糊框架——流导向稀疏转换器(FGST)。在FGST中,我们自定义了一个自注意模块,即基于流导向稀疏窗口的多头自注意模块(FGSW-MSA)。

对于模糊参考帧上的每个查询元素,FGSW-MSA利用估计光流的引导,对相邻帧中对应于同一场景patch的空间稀疏但高度相关的关键元素进行全局采样。此外,我们提出了一种循环嵌入(RE)机制,从过去帧转移信息,并加强远程时间依赖性。综合实验表明,我们提出的FGST方法在DVD和GOPRO数据集上的性能都优于最先进的SOTA方法,并在真实视频去模糊中获得了令人满意的视觉效果。

code:GitHub - linjing7/VR-Baseline: Video Restoration Toolbox including FGST (ICML 2022), S2SVR (ICML 2022), etc.

1. Introduction

在低级计算机视觉和图形领域,视频去模糊是一项基本而富有挑战性的任务。它旨在从模糊的视频序列中恢复潜在帧。视频去模糊作为一种预处理技术,在视频稳定(Matsushita et al, 2006)、跟踪(Jin et al, 2005)、自动驾驶(Yin et al, 2021)等方面有着广泛的应用。手持设备在捕捉动态场景的视频中越来越受欢迎,在动态场景中,普遍的深度变化、突然的相机抖动和高速物体运动导致了不需要的模糊视频。为了减轻运动模糊的影响,研究人员在视频去模糊方面投入了大量的精力。

传统的方法主要基于手工制作的先验和假设,这限制了模型的容量。此外,运动模糊和潜在帧的假设通常导致复杂的能量函数难以求解。此外,手工制作的运动模糊核估计不准确,容易产生严重的伪影。

近十年来,随着深度学习的发展,视频去模糊技术取得了长足的进展。卷积神经网络(Convolutional neural network, CNN)在大规模的模糊-清晰视频对数据集的监督下,应用一种强大的模型来学习模糊视频到清晰视频的映射。基于cnn的方法获得了令人印象深刻的性能,但在建模远程空间依赖和捕获非局部自相似方面存在局限性。

最近,Transformer的出现为缓解基于cnn的方法的约束提供了一种替代方案。

首先,Transformer擅长建模长期的空间依赖性。背景信息和空间相关性是恢复运动模糊的关键。其次,来自相邻帧的相似且更清晰的场景补丁为视频去模糊提供了重要线索。幸运的是,Transformer中的self-attention模块专门用于计算像素之间的相关性,并沿时间序列捕获自相似性。因此,Transformer本质上与从时空邻域学习相似信息的目标产生共鸣。然而,直接使用现有的变形金刚进行视频去模糊有两个问题。一方面,当使用标准全局变压器(Dosovitskiy et al, 2021)时,计算成本是时空维度的二次元。这种负担非同小可,有时甚至难以承受。

同时,全局Transformer关注冗余的关键元素,这很容易导致不收敛问题(Zhu et al, 2020)和过平滑结果(Li et al, 2019)。另一方面,当使用基于局部窗口的Transformer (Liu et al, 2021)时,自我注意是在特定位置窗口内计算的,导致接受域有限。当存在快速运动时,该模型可能会忽略时空邻域中相似且更清晰的场景斑块的一些关键元素进行视频去模糊有两个问题。一方面,当使用标准全局变压器(Dosovitskiy et al, 2021)时,计算成本是时空维度的二次元。这种负担非同小可,有时甚至难以承受。同时,全局Transformer关注冗余的关键元素,这很容易导致不收敛问题(Zhu et al, 2020)和过平滑结果(Li et al, 2019)。另一方面,当使用基于局部窗口的Transformer (Liu et al, 2021)时,自我注意是在特定位置窗口内计算的,导致接受域有限。当存在快速运动时,该模型可能会忽略时空邻域中相似且更清晰的场景斑块的一些关键元素。

我们总结了产生上述问题的主要原因,即以往的变形金刚在计算自我注意时缺乏运动信息的引导。我们注意到运动信息可以通过光流来估计。本工作就是针对上述问题而进行的。提出了一种新的视频去模糊方法——流导向稀疏变换(FGST)。首先,我们采用Transformer代替CNN作为去模糊模型,因为Transformer具有捕获远程空间依赖和非局部自相似的优点。

我们的流动导向自我注意机制的说明。(a) FGS-MSA对空间稀疏但高度相关的关键元素进行全局采样,这些关键元素在邻近帧中具有相似和锐利的补丁。(b) FGSW-MSA不是在每个相邻帧上采样单个关键元素,而是对参考帧上窗口查询元素对应的所有关键元素进行稳健采样。

其次,为了缓解之前transformer和预扭曲策略的局限性,我们定制了 (FGS-MSA),如图1 (a)所示。对于参考帧上的每个查询元素,由光流估计器引导的FGS-MSA对对应于相同场景补丁但在相邻帧中错位的空间稀疏关键元素进行全局采样。这些采样的关键元素提供了自相似和高度相关的图像先验信息,对恢复运动模糊至关重要。与原来的全局和局部变形金刚不同,我们的FGST既不会盲目采样冗余的关键元素,也不会受到接受域的限制。同时,我们的对准方案不同于以往基于流的方法主要使用的预翘曲操作。我们的FGST没有扭曲相邻帧,而是在连续帧中采样关键元素来计算自我注意。这样可以保留原始图像的先验信息。再次,我们将FGS-MSA提升为图1 (b)所示的基于流导向稀疏窗口的多头自注意(FGSW-MSA)。将特征映射分割为不重叠的窗口。FGSWMSA不是为单个查询元素在每个相邻帧上采样单个关键元素,而是对对应于参考帧上窗口的所有查询元素的光流分配的关键元素进行采样。因此,FGSW-MSA在适应像素级流量偏移预测偏差方面更加稳健。最后,我们的FGSW-MSA在短时间序列内计算,减少了计算成本。因此,FGSW-MSA 的感受野在空间上是全局的,但在时间上是局部的。基于rnn的方法(Nah等人,2019;Zhong等,2020),我们提出了循环嵌入(RE)来传输过去帧的信息和捕获远程时间依赖性。

我们的贡献可以总结如下:

•我们提出了一种新的视频去模糊方法,FGST。据我们所知,这是在这个任务中探索Transformer潜力的第一次尝试。

•我们定制了一种新的自我注意机制,FGSMSA,及其改进版本,FGSW-MSA。

•我们设计了一个嵌入方案RE来传输帧信息和捕获时间依赖性。

•我们的FGST方法在DVD和GOPRO数据集上的性能比SOTA方法好很多,在真实视频去模糊时产生了更视觉愉悦的结果

2. Related Work

2.1. 视频去模糊

近年来,去模糊的研究重点正在从单幅图像去模糊转移(Zoran et al, 2011;Chakrabarti, 2016;Purohit等人,2020)到更具挑战性的视频去模糊(Cho等人,2012;Matsushita等人,2006)。传统方法(Li et al, 2010;Zhang等人,2013)基于手工制作的图像先验和假设,这导致了有限的通用性和表示能力。随着深度学习的发展,目前的方法主要有CNN-based或RNN-based。(Zhang et al, 2018)使用三维卷积来建模帧的时空关系。(Hyun Kim et al, 2017)和(Nah et al, 2019)使用基于rnn的模型来恢复潜在帧。然而,基于cnn的方法在捕获远程依赖方面存在局限性,而基于rnn的方法对patch级空间相关性和运动信息不敏感

2.2. Vision Transformer

Transformer是由(V aswani et al, 2017)首先提出用于机器翻译的。最近,Transformer已经被引入到高层(Dosovitskiy等人,2021年;Liu等,2021年;朱等,2020;郑等,2021年;El-Nouby等,2021年;Carion等,2020年;Li等,2021b;Ramachandran等,2019;吴等,2020;Cai等人,2020年)和低水平视觉(Chen等人,2021年;蔡等,2021b;Wang等,2021年;曹等,2021b;蔡等,2011a;Hu等人,2021)。(Arnab等人,2021)将输入视频的空间和时间维度因式分解,并提出了一个用于视频分类的Transformer模型。(Chen等人,2021)提出了一种基于多任务学习方案的大规模数据集预训练的大型模型IPT。(Cao等,2021b)提出了VSR-Transformer,使用自注意机制在视频超分辨率中更好地融合特征,但图像特征仍然从CNN中提取。(Wang et al, 2021)使用Swin Transformer (Liu et al, 2021)块构建u型结构进行单幅图像恢复。

(V aswani等,2021;曹等,2011a;Liu et al, 2021),采用基于窗口的局部自注意模块替代标准Transformer的全局自注意模块。然而,直接使用以前的全局或局部变压器进行视频去模糊会导致计算成本难以承受或接受域有限

2.3. 流为基础的视频修复

光流估计器广泛应用于视频恢复任务(Gast & Roth, 2019;薛等,2019;龚等,2017;孙等,2015;Makansi等,2017;苏等,2017;Pan等人,2020)来对齐高度相关但对齐错误的帧。以往基于流的视频去模糊方法(Xue等人,2019;Makansi等,2017;苏等,2017;潘等人,2020年;Gast & Roth, 2019)主要采用预翘曲策略,首先估计光流,然后对相邻帧进行翘曲。例如,(Su et al, 2017)基于经典光流方法对输入图像进行预失真的实验,将其配准到参考坐标系中。尽管如此,这种基于流的预扭曲方案将帧对齐和后续的信息聚合分离开来。牺牲了原有的帧信息,没有充分挖掘光流的引导效应。

3. Method

3.1. Overall Architecture

图2 (a)显示了FGST的架构,它采用了广泛使用的 U-shaped结构,由编码器、瓶颈和解码器组成。图2 (b)描述了FGST的基本单元,即流导注意块(Flow-Guided Attention Block, FGAB)。

输入是一个模糊视频V\in R^{TX3XHXW},其中T表示序列长度,H和W表示帧的宽度和高度。首先,FGST利用5个剩余块将V映射为tokensX_{0}\in R^{TXCXHXW},其中C表示通道数。剩余块的细节如图2 (d)所示。其次,X0通过两个FGABs和补丁合并层,生成分层特征。补丁合并层是一个跨步的4×4卷积,它对特征映射进行下采样并使通道加倍。第三,X2通过瓶颈,瓶颈由两个FGABs组成。

遵循U-Net的精神(Ronneberger et al, 2015),我们定制了一个对称的译码器,它由两个FGABs和补丁扩展层组成。补丁扩展层是一个跨步2×2反褶积,对特征图进行上采样。为了减少下采样造成的信息丢失,在编码器和解码器之间采用跳跃式连接进行特征融合。

特征图经过解码器后,经过5个残差块,生成残差帧序列

 3.2. Flow-Guided Attention Block

 正如第1节所分析的,标准全局Transformer带来了相对于 token number的二次计算复杂度,很容易导致不收敛问题和过平滑结果。以前的基于窗口的局部Transformers接收域的限制。

为了解决这些问题,我们提出在计算自我注意时,利用光流作为引导,从时空邻域中采样关键元素。基于这一动机,我们定制了基本单元FGAB,如图2 (b)所示。FGAB由一个层归一化(LN)、一个基于流引导稀疏窗口的多头自注意(FGSW-MSA)、一个前馈网络(FFN)和两个标识映射组成。FFN由5个连续的残差块组成。本部分首先介绍了流导向稀疏多头自注意算法(FGS-MSA)及其改进版本FGSW-MSA

 ......

Discussion.

(i)我们的FGSW-MSA比W-MSA有更大的接受野(Liu等,2021)。具体而言,根据式(1)、(2)、(6)、(7),当估计的流量偏移量足够大时,FGSW-MSA的接受野可以覆盖整个输入特征图。在实际应用中,运动偏移量由光流估计器预测两个相邻帧在GOPRO和DVD数据集上可以达到40和38像素。输入的空间大小为256×256。M设置为3。因此,FGSW-MSA的感受野可以达到83×83 (83 = 40×2+3)和79×79,而W-MSA的感受野仍然是3×3。(ii)与之前基于流的方法不同,我们的FGST方法采用了牺牲原始图像信息的预扭曲操作,如图3所示,它结合了运动线索和自我注意计算。这样既可以保留原始的图像信息,又可以进一步探索光流的引导作用。此外,由于相邻FGABs样本内容是独立的,我们的流动导向方案具有较高的灵活性和鲁棒性。具体讨论请参考SM。

......

4. Experiment

我们在PyTorch中实现了FGST。我们采用预训练的SPyNet (Ranjan et al, 2017)作为光流估计器。所有模块都用Adam (Kingma & Ba, 2015)优化器(β1 = 0.9和β2 = 0.999)训练600课时。对于去模糊模型和光流估计器,初始学习率分别设置为2×10−4和2.5×10−5。在训练过程中,学习率每200epochs减半。从训练帧中裁剪的256×256大小的补丁被输入模型。批大小为8。相邻帧的时间半径r设为1。训练时设置序列长度T为9,测试时设置全视频长度。执行水平和垂直翻转是为了增加数据。采用峰值信噪比(PSNR)和结构相似度(SSIM) (Wang et al, 2004)作为评价指标。模型使用8个V100 gpu进行训练。用还原视频与GT视频之间的L1损耗进行监控。

看到8块V100,直接放弃

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值