深度学习论文学习———Deraining

Enhanced Spatio-Temporal Interaction Learning for Video Deraining: Faster and Better

用于视频去雨的增强时空交互学习:更快更好的框架

Abstract

Video deraining is an important task in computer vision as the unwanted rain hampers the visibility of videos and deteriorates the robustness of most outdoor vision systems. Despite the significant success which has been achieved for video deraining recently, two major challenges remain: 1) how to exploit the vast information among successive frames to extract powerful spatio-temporal features across both the spatial and temporal domains, and 2) how to restore high-quality derained videos with a high-speed approach. In this paper, we present a new end-to end video deraining framework, dubbed Enhanced Spatio Temporal Interaction Network (ESTINet), which considerably boosts current state-of-the-art video deraining quality and speed. The ESTINet takes the advantage of deep residual networks and convolutional long short-term memory, which can capture the spatial features and temporal correlations among successive frames at the cost of very little computational resource. Extensive experiments on three public datasets show that the proposed ESTINet can achieve faster speed than the competitors, while maintaining superior performance over the state-of-the-art methods.

https://github.com/HDCVLab/Enhanced-SpatioTemporal-Interaction-Learning-for-Video-Deraining

视频去雨存在两个主要挑战:1)如何利用连续帧之间的大量信息,以跨空间和时间域提取强大的时空特征,以及2)如何使用高速方法恢复高质量去雨视频。本文提出了一种新的端到端视频去雨框架,称为增强时空交互网络(ESTINet),它大大提高了当前最先进的视频去雨质量和速度。ESTINet利用了深度残差网络和卷积长短期存储器的优势,它可以以很少的计算资源为代价捕获连续帧之间的空间特征和时间相关性。

Introduction

图2展示了ESTINet的整体架构。它包括三个部分:空间信息收集模块(SICM)、时空交互模块(STIM)和增强时空模块(ESTM)。

5d3a787a37ae454eafa3c9c4caa9a58f.png

图2

  1. 空间信息在视频去雨中起着重要作用,SICM架构是从输入的雨帧中直接提取高级空间特征。
  2. STIM是一种卷积双向长短期存储器(CBLSTM)类架构,称为交互CBLSTM,它可以直接利用从前一模块捕获的空间特征,是一个轻量级模块,主要考虑时间相关性,以帮助去除雨带,而计算成本几乎没有增加,此外,本文CBLSTM(图4)架构将从最后一帧提取的特征连接到输入,并使用卷积运算代替tanh函数,以适应不同规模的输入帧。。
  3. ESTM使用类似3D DenseNet的架构细化时间变换同时保留真实的内容信息。

 

57fd700c1d61486282d8aa745ddd6e28.png图4

 

工作流程:

SICM从输入的雨帧中直接提取高级空间特征,作为表示馈送到第二部STIM中,STIM中的卷积双向长短期存储器(CBLSTM)类架构可以直接利用从前一模块捕获的空间特征,以恢复粗略去雨的帧,将粗略的去雨视频作为输入,细化时间变化并同时保留真实的内容信息。

Contributions

  1. 框架层面:构建了一个增强时空交互网络(ESTINet),为视频去雨训练提供更好的时空信息。在三个模块中:一二模块能够分别提取空间信息和时间信息。最后一个模块有助于提取增强的时空信息。通过这种方式,所提出的框架能够学习视频去雨的空间和时间线索。
  2. 模块级:卷积双向长短期存储器(CBLSTM)类架构的时空交互模块。该模块能从最后一帧提取的特征连接到输入,并使用卷积运算代替tanh函数,以适应不同规模的输入帧。
  3. 性能:在三个公共雨天视频数据集上的实验表明,所提出的ESTINet在视频去雨方面达到了最先进的性能。同时,在速度方面,ESTINet也优于同行。

Related work

单图像去雨是一个高度不适定的问题,其目的是通过仅分析单个图像的视觉信息来去除背景中的雨水。在最近几十年中,提出了一组模型来从下雨的图像中恢复干净的图像,包括雨条纹的局部光度量、几何、统计特性[5]、[6]、[7]、[8]和深度学习方法[9]、[10]、[11]、[12]、[13]、[14]、[15]、[16]、[17]、[18]、[19]、[20]、[21]。

为了利用视频序列帧之间的时间校正,提出了几种基于视频的去雨方法,并显示了在去除雨水方面的巨大优势[22],[23],[24],[25],[26]。早期工作侧重于通过基于先验的方法[22],[27]捕获时间上下文和运动信息。这些类型的方法基于雨的光度量出现率对雨条纹进行建模[25],[28],[29],[30],[31],并提出基于学习的模型来解决视频降噪问题[32],[33],[34],[35],[36]。例如,Zhang等人[28]结合了时间和色彩特性,从视频中去除雨水。Santhaseelan等人[25]和Barnum等人[23]分别通过提取相位同余特征和傅里叶域特征去除了雨纹。Kim等人[34]提出了一种时间相关性和低秩矩阵完成方法,以基于雨条纹不会影响帧之间的光流估计的观测结果来去除雨。

最近,已经提出了许多基于深度学习的方法,并为视频去训练带来了重大变化[1],[2],[3],[37],[38],[39],[40]。Chen等人[3]首先使用超像素分割方案将图像分解为深度一致的单元,然后通过鲁棒的深度CNN恢复干净的视频。Liu等人在[2]中提出了一种递归神经网络来分类雨帧中的所有像素,去除雨和重建的背景细节,并在[38]中引入了动态路由残差递归网络来集成他们提出的混合雨模型。为了利用现实世界中的额外退化因子,Yang等人[1]构建了一个两阶段递归网络,首先捕获运动信息,然后保持帧之间的运动一致性以去除雨水。还有一种自学习的深度视频去雨方法[41],它可以学习如何在没有成对训练样本的情况下去除雨水。

尽管上述深度去雨方法在视频去雨方面取得了巨大的成功,但它们大多关注性能而忽略了计算时间。在本文中,我们提出了一种新的端到端视频去雨方法,该方法可以以更高的速度提高性能。

Frame-based Spatial Representation(基于框架的空间表示)

如图3所示,我们的SICM是一种编码器-解码器架构。编码器和解码器都包括一个卷积层和四个ResBlock。输入是原始RGB图像。在输入之后,卷积层将RGB图像编码为具有与原始输入相同大小的特征图。然后,编码器中的四个ResBlock使用四个向下投影操作将特征图的分辨率降低到1/16。解码器通过四次上投影操作以原始分辨率重建干净的图像。为了融合多尺度特征,在编码器和解码器之间存在多尺度融合模块。具体地,从块2-5提取的特征图被上采样,然后连接到SICM的最后一层。在SICM中,我们使用深度自动编码器架构有两个原因。首先,自动编码器架构在图像恢复领域非常流行,并且具有提取空间特征的强大能力。其次,以下STIM具有较少的卷积层。SICM中的附加解码器可以帮助生成最终的干净帧。SICM的数量与输入帧的数量相同。所有SICM在训练阶段共享权重。

c3eca81ef75f40cb949cb866840e71a0.png

 

图3

本文中使用相对较轻的编码器-解码器架构模型可以高速处理输入帧,它也可以用一些其他最先进的主干来代替,以提高空间特征提取的能力。

Spatial-Temporal Interaction LearningSTIM时空交互学习)

本文的STIM来学习连续帧之间的时间相关性。STIM的结构基于LSTM模型,如图4所示。传统的LSTM公式如下:

54f654a235464ef8a7c3b2b21c847dbf.png

 

 

其中U(⋅)W(⋅)是隐藏权重矩阵和隐藏权重矩阵的输入,b(⋅)为偏置向量。σ分别是乙状激活函数(sigmoid activation function)和点乘法。x(t)是LSTM在时间t的输入。ht-1是LSCM在时间t-1的输出。

24b37c8471f84af4b2470d0a93ec4b56.png

图4

与处理矢量的传统LSTM不同,所提出的STIM在传统LSTM的基础上进行了修改,以处理视频去噪。首先,用卷积代替LSTM中的Hadamard乘积,以解决SICM提取的二维空间表示。其次,我们将最后一帧的空间表示添加到遗忘门f(t)的计算中。第三,我们用卷积运算代替双曲正切激活函数,如ConvLSTM[42],并添加双向运算,如双向LSTM[43]。我们的STIM公式如下:

a86bf440a24c4a6e9475ca709993eaf5.png其中*是卷积运算。fxt包含由SICM从帧t提取的空间特征图。我们将fxt与从最后一帧t1中提取的空间特征图fxt-1连接起来,然后将其输入STIM以更新信息。然后,来自输出门和更新的存储单元的信息被级联并馈送到两个卷积层中,以获得恢复结果h(t)。我们还可以通过保留帧的顺序来获得其他结果h'(t)。来自两个方向的结果最终被馈送到另外两个卷积层,以获得更精细的去雨结果If(t)。由于LSTM架构,所提出的交互CBLSTM可以在雨水清除过程中受益于所有帧。

 

Enhanced Spatial-Temporal ConsistencyESTM增强的时空一致性)

ESTM中应用了3D CNN,以弥补传统LSTM的不足,并细化减载结果。将STIM的粗略结果和原始降雨帧连接起来并输入ESTM,ESTM通过在这些帧上卷积3D内核来操作3D卷积。通过这样做,卷积层中的特征图还可以捕捉动态变化,以帮助进一步去除雨水并恢复图像的细节。特别地,我们在第一和第二卷积层中执行核大小为3×3的3D卷积,以将时间维度从5减少到1。在下面的层中,我们使用2D卷积RDB[44]来代替3D操作,因为它们的时间维度已经减少到1。RDB旨在通过密集连接的卷积层提取特征,这与DenseNet[45]类似。

f4fa5647b0314c8a8abc21f51c6960d8.png

图5“Output1”表示粗略的减额结果,“Output2”表示精确的结果。

Loss Functions

Spatio-Temporal Interaction Loss.

SICM和STIM能够从输入帧中学习空间表示和时间相关性。为了帮助它们相互作用以恢复粗略结果,我们应用均方误差(MSE)来计算时空交互损失,其定义为:

2a6efffbdcbb4b4d93e4755c59843af7.png

 

其中WH是帧的宽度和高度,Ix,ycleanG(Irainy)x,y对应于位置(x,y)处的粗略减额帧和雨天帧的值。注意,由于这种损失测量了SICM和STIM的结果,它们专门用于空间和时间域,因此我们将这种损失称为时空交互损失。

Enhanced Spatio-Temporal Loss.

在训练阶段,基于增强的时空损失更新ESTM的参数,以进一步去除雨水并恢复干净的图像。损失函数可以表示为:

120dab3f124243778c37c4aa18f1a118.png

 

 

其中Iderained收集从STIM生成的粗去雨帧。该损失用于评估地面真相的增强结果,因此我们将其称为增强时空损失。

Balance of Different Loss Functions. (不同损失函数的平衡)

在训练阶段,上述两个损失函数组合为:

cb7ecac1df1b421691ce53b269359bef.png

 

其中α是平衡两个损失函数的超参数。在本文中,将其设置为1。

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值