Spatio-Temporal Filter Adaptive Network for Video Deblurring

用于视频去模糊的时空滤波器自适应网络

由于相机抖动、物体运动和深度变化等导致的空间变化模糊,视频去模糊是一项具有挑战性的任务。现有方法通常估计模糊视频中的光流,以对齐连续帧或近似模糊核。然而,当估计的光流不准确时,它们倾向于产生伪影或不能有效地消除模糊。为了克服单独光流估计的局限性,我们提出了一种时空滤波器自适应网络(STFAN),用于统一框架中的对准和去模糊。所提出的STFAN将前一帧的模糊和恢复图像以及当前帧的模糊图像作为输入,并动态生成用于对准和去模糊的空间自适应滤波器。然后,我们提出了一种新的滤波器自适应卷积(FAC)层,以将前一帧的去模糊特征与当前帧对齐,并从当前帧的特征中去除空间变化的模糊。最后,我们开发了一个重建网络,它融合了两个变换后的特征来恢复清晰的帧。对基准数据集和真实世界视频的定量和定性评估结果表明,所提出的算法在精度、速度和模型大小方面优于最先进的方法。

1. Introduction
最近,手持和车载视频捕捉设备广受欢迎,例如智能手机、动作相机、无人机。动态场景中的相机抖动和高速移动通常会产生不希望的模糊,并导致视频模糊。低质量的视频不仅导致视觉质量差,还阻碍了一些高级视觉任务,如跟踪[12,21]、视频稳定[20]和SLAM[18]。因此,为上述人类感知和高级视觉任务开发一种有效的视频去模糊算法是非常有兴趣的。

与单个图像去模糊不同,视频去模糊方法可以利用存在于相邻帧之间的附加信息。由于使用了来自相邻帧[20,3]的更尖锐区域或来自连续帧[9,32]的光流,已经取得了重大进展。然而,直接利用周围帧的尖锐区域通常会产生显著的伪影,因为相邻帧没有完全对齐。尽管使用来自两个相邻帧的运动场(例如光流)能够克服对准问题或近似非均匀模糊核,但是从模糊的相邻帧估计运动场是相当具有挑战性的。

受深度神经网络在低级视觉中的成功激励,已经提出了几种算法来解决视频去模糊[10,36]。Kim等人[10]通过深度递归网络连接多帧特征以恢复当前图像。然而,该方法未能充分利用相邻帧的信息,没有明确考虑对齐,并且当视频包含大运动时不能很好地执行。Su等人[36]将连续帧与参考帧对齐。它表明,当输入帧不太模糊,但对包含严重模糊的帧效果较差时,该方法表现良好。我们还根据经验发现,对齐和去模糊对于深度网络从模糊视频中恢复更清晰的帧至关重要。

另一组方法[4,37,8,9]使用单个或多个图像来估计被视为非均匀模糊核的近似的光流。对于估计的光流,这些方法通常使用现有的非盲去模糊算法(例如,[46])来重建清晰图像。然而,这些方法高度依赖于光学流场的精度。此外,这些方法只能预测线形模糊核,这在某些情况下是不准确的。为了处理动态场景中的非均匀模糊,Zhang等人[45]开发了用于图像去模糊的空间变异递归神经网络(RNN)[19],其像素权重从卷积神经网络(CNN)中学习。该算法不需要额外的非盲去模糊算法。然而,它仅限于单个图像去模糊,不能直接扩展到视频去模糊。

为了克服上述限制,我们提出了一种用于视频去模糊的时空滤波器自适应网络(STFAN)。受将生成的滤波器应用于输入图像的动态滤波器网络[11,24,22]的激励,我们提出了逐像素滤波器自适应卷积(FAC)层。与[11,24,22]相比,FAC层将生成的空间变异滤波器应用于下采样特征,这允许其使用较小的滤波器尺寸获得更大的感受野。它还具有更强的能力和灵活性,因为针对不同的特征信道动态估计不同的滤波器。该方法将对准和去模糊表示为统一网络中的两个像素级滤波器自适应卷积过程。具体而言,给定前一帧的模糊和恢复图像以及当前帧的模糊图像,STFAN动态生成用于特征变换的相应对齐和去模糊滤波器。与从单个模糊图像[45,4,37,8]或两个相邻模糊图像[9]中估计非均匀模糊核相比,我们的方法从更丰富的输入中估计去模糊滤波器:三个图像和从对准滤波器获得的两个相邻帧的运动信息。通过使用FAC层,STFAN自适应地对齐在不同时间步长获得的特征,而无需显式地估计光流和扭曲图像,从而导致对齐精度的公差。此外,FAC层允许我们的网络更好地处理空间变化的模糊,在特征域进行去模糊。图1中的一个示例显示,我们的方法生成的图像(图1(g))比没有FAC层的基线(图1)(f))以及竞争方法更清晰。

主要贡献总结如下:•我们提出了一个滤波器自适应卷积(FAC)层,该层将生成的滤波器应用于特征变换,用于两个空间变化任务,即特征域的对齐和去模糊。

•我们提出了一种新的用于视频去模糊的时空滤波器自适应网络(STFAN)。它将帧对齐和去模糊集成到一个统一的框架中,而无需显式运动估计,并使用生成的逐像素自适应滤波器和FAC层将它们表示为两个空间变化的卷积过程。

•我们在基准数据集上对我们的网络进行了定量和定性评估,并表明它在精度、速度和模型大小方面优于最先进的算法。

2. Related Work

我们的工作将视频去模糊任务中的相邻帧对齐和非均匀模糊去除表述为两个像素级滤波器自适应卷积过程。以下分别对单图像去模糊、多图像去模糊和核预测网络的相关工作进行了综述。

Single-Image Deblurring.

已经提出了许多用于单图像去模糊的方法。早期研究人员假设统一的模糊核,并设计一些自然图像先验,如L0正则化先验[44]、暗通道先验[28],以补偿不适定的模糊去除过程。然而,这些方法很难在动态场景下对空间变化的模糊进行建模。为了对非均匀模糊进行建模,方法[7]和[27]为不同分割的图像块估计不同的模糊核。其他工作[4,37,8]估计了密集运动场和逐像素模糊核。

随着深度学习的发展,人们提出了许多基于神经网络的动态场景去模糊方法。方法[37]和[4]利用神经网络来估计非均匀模糊核。然而,预测的核是线形的,在某些情况下是不准确的,通常需要耗时的常规非盲去模糊[46]来恢复清晰的图像。最近,许多端到端CNN模型[38,45,17,23,26]也被提出用于图像去模糊。为了获得处理大模糊的大感受野,在[38,23]中使用了多尺度策略。为了处理动态场景模糊,Zhang等人[45]使用空间变化的RNN[19]通过神经网络生成的RNN权重来去除特征空间中的模糊。然而,与基于视频的方法相比,RNN权重的精度高度受限于仅具有单个模糊图像作为输入。为了降低恢复的难度并确保颜色一致性,Noroozi等人[26]构建输入与输出间的跳过连接。[23,17]中使用了对抗性损失来生成更清晰的图像和更多细节。

Multi-Image Deblurring.

许多方法利用多个图像来解决视频、突发或立体图像的动态场景去模糊。[42]和[32]的算法使用预测的光流来分割具有不同模糊的层,并逐层估计模糊。此外,Kim等人[9]将光流视为模糊核的线形近似,从而迭代优化光流和模糊核。基于立体的方法[43,34,29]从立体图像估计深度,用于预测像素模糊核。为了提高泛化能力,Chen等人[2]提出了一种基于光流的重模糊步骤来重建模糊输入,该步骤用于通过自监督学习来微调去模糊网络。最近,已经提出了几种用于视频去模糊的端到端CNN方法[36,10,15]。在使用光流进行图像对准之后,[36]和[15]聚集相邻帧上的信息以恢复清晰图像。Kim等人[10]应用时间递归网络将前一时间步长的特征传播到当前时间步长的那些特征。尽管运动可以作为模糊估计的有用指导,Aittala等人[1]通过反复交换突发图像特征之间的信息,以顺序无关的方式提出了端到端突发去模糊网络。

Kernel Prediction Network.

核(滤波器)预测网络(KPN)最近在低级视觉任务中取得了快速进展。Jia等人[11]首先提出了动态滤波器网络,它由预测输入图像上的核的滤波器预测网络和将生成的核应用于另一个输入的动态滤波层组成。他们的方法显示了视频和立体预测任务的有效性。Niklaus等人[24]将核预测网络应用于视频帧插值,将光流估计和帧合成合并到统一的框架中。为了缓解对存储器的需求,他们随后提出了可分离卷积[25],该卷积估计两个可分离的1D核以近似2D核。在[22]中,他们使用相同的预测核,将KPN用于突发帧对齐和去噪。[13] 使用生成的动态上采样滤波器从低分辨率输入重建高分辨率图像。然而,所有上述方法都直接在图像域应用预测核(滤波器)。此外,Wang等人[39]提出了一种用于图像超分辨率的空间特征变换(SFT)层。它为逐像素特征调制生成变换参数,可以将其视为特征域中核大小为1×1的KPN。

3. Proposed Algorithm

3.1. Overview

在本节中,我们首先在第3.1节中概述了我们的算法。然后在第3.2节中介绍了所提出的滤波器自适应卷积(FAC)层。在该层上,我们在第3.3节中显示了所提出网络的结构。最后,我们在3.4节中给出了用于约束网络训练的损失函数。

不同于标准的基于CNN的视频去模糊方法[36,10,15],该方法以五个或三个连续的模糊帧作为输入来恢复清晰的中间帧,我们提出了一种帧递归方法,该方法需要前一帧和当前输入的信息。由于递归性,所提出的方法能够在不增加计算需求的情况下探索和利用来自大量先前帧的信息。

如图2所示,所提出的STFAN从三重图像(前一时间步骤t-1的模糊和恢复图像和当前输入模糊图像。然后,使用FAC层,STFAN将前一时间步骤中的去模糊特征与当前步骤对齐,并从当前模糊图像中提取的特征中去除模糊。最后,通过融合上述两个变换特征,应用重建网络来恢复清晰图像。

3.2. Filter Adaptive Convolutional Layer

......

3.3. Network Architecture

如图2所示,我们的网络由时空滤波器自适应网络(STFAN)、特征提取网络和重构网络组成。

特征提取网络。该网络从模糊图像Bt中提取特征Et,该图像Bt由三个卷积块组成,每个卷积块具有一个步长为2的卷积层和两个残差块[6],LeakyReLU(负斜率λ=0.1)作为激活函数。提取的特征被输入STFAN,用于使用FAC层进行去模糊。

时空滤波器自适应网络。

所提出的STFAN由三个模块组成:三元组图像的编码器etri、对准滤波器生成器galign和去模糊滤波器生成器gdeblur。

......

重建网络。
重建网络用于通过将STFAN的融合特征作为输入来恢复清晰图像。它由尺度卷积块组成,每个卷积块有一个反卷积层和两个残差块,如图2所示

3.4. Loss Function

......

4. Experiments

4.1. Implementation Details

在我们的实验中,我们使用[36]中的视频去模糊数据集训练所提出的网络。它包含71段视频(6708对模糊-锐利视频),分为61段训练视频(5708对)和10段测试视频(1000对)。

数据扩充。我们为训练执行了几个数据扩充。我们首先将每个视频分成几个长度为20的序列。为了将运动多样性添加到训练数据中,我们随机反转序列的顺序。对于每个序列,我们执行相同的图像变换。它包括从[0.8,1.2]均匀采样的亮度、对比度和饱和度等颜色变换和几何变换,包括水平和垂直随机翻转以及随机裁剪到256×256个面片。为了使我们的网络在真实场景中具有鲁棒性,将来自N(0,0.01)的高斯随机噪声添加到输入图像中。

实验设置。我们使用[5]中的初始化方法初始化我们的神经网络,并使用Adam[16]优化器对其进行训练,β1=0.9,β2=0.999。我们将初始学习率设置为10−4并且每400k次迭代衰减0.1。所提出的网络在900k次迭代后收敛。我们在视频去模糊数据集上对所提出的方法进行了定量和定性评估[36]。为了与最相关的基于深度学习的算法进行公平比较[23,17,45,38],我们通过视频去模糊数据集上相应的公开发布的实现来微调所有这些方法[36]。在我们的实验中,我们使用PSNR和SSIM[40]作为合成测试集的定量评估指标。培训代码、测试模型和实验结果将向公众提供。

4.2. Experimental Results

定量评估。我们将所提出的算法与最先进的视频去模糊方法进行了比较,包括传统的基于光流的逐像素核估计[9]和基于CNN的方法[36,10]。我们还将其与最先进的图像去模糊方法进行了比较,包括传统的非均匀去模糊[41]、基于CNN的空间变化模糊核估计[37,4]和端到端CNN方法[23,17,45,38]。

表1显示,在动态场景视频去模糊数据集的测试集上,所提出的方法与最先进的算法相比表现良好[36]。图4显示了[36]测试集中的一些示例。结果表明,现有方法不能很好地保持清晰的细节并去除不均匀的模糊。通过时间对齐和空间变化去模糊,我们的网络表现最佳,并以更多细节恢复更清晰的图像。

定性评估。为了进一步验证所提出方法的泛化能力,我们还将所提出的网络与其他算法进行了定性比较。来自[36]的真实模糊图像。如图5所示,与最先进的图像和视频去模糊方法相比,所提出的方法可以恢复具有更多图像细节的整形器图像。比较结果表明,我们的STFAN可以在动态场景中鲁棒地处理未知的真实模糊,这进一步证明了所提出的框架的优越性。

.....

5. Analysis and Discussions

5.1. Effectiveness of the FAC layers

生成的对齐过滤器和去模糊过滤器分别在图6(c)和(h)中可视化。根据图6(b)EpicFlow[33]估计的光流,视频中有一辆车辆在移动,这与我们网络估计的对准滤波器一致。移动不同的模糊需要不同的操作,模糊在某种程度上与光流有关,我们的网络为前景车辆和背景估计不同的去模糊滤波器。

为了验证FAC层用于对齐和去模糊的有效性,图6中显示了一些中间特征。根据图6(d)和(i),即使在训练期间没有图像对齐约束,用于对齐的FAC层也可以正确地将车辆头部从绿线扭曲到紫线。至于图6(j)中用于去模糊的变换特征,它们比图6(e)中FAC层之前的特征更清晰,这意味着去模糊分支可以有效地去除特征域中的模糊。

我们还进行了三个实验,通过直接连接相应的特征来替换一个或两个FAC层,而不需要FAC层的特征转换。在表2中,(w/o A,w/o D)、(w/o B,w/o C)和(w/o D,w/o A)分别表示仅用于特征域对齐、仅用于特征区域去模糊和两者的FAC层的移除(请参见图2进行澄清)。

它表明,如果没有FAC层的特征转换,网络的性能会更差。此外,图1还显示,如果不使用FAC层,我们的方法无法恢复如此清晰的图像。

5.2. Effectiveness of the Alignment and Deblurring Branches

为了验证对齐分支和去模糊分支的有效性,我们将我们的网络与两个变体网络进行比较:去除对齐分支(-,w D)的特征和去除去模糊分支(w A,-)的特征1。

5.3. Effectiveness of the Triplet Input of STFAN

为了生成自适应对准和去模糊滤波器,STFAN采用三元组输入(先前的模糊图像Bt−1,先前恢复的图像Rt−1和当前模糊图像Bt)。表3显示了采用(Bt−1,Bt)和(Rt−1,Bt)作为输入。我们的方法中的三元组输入导致最佳性能。正如第3.3节所讨论的,网络可以隐式地捕捉运动并更好地从三元组输入中建模动态场景模糊

......

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值