MyDLNote-Enhancement: 2020CVPR FastDVDnet : 无流量估计的实时深度视频去噪

FastDVDnet: Towards Real-Time Deep Video Denoising Without Flow Estimation

 
 
 

Abstract

In this paper, we propose a state-of-the-art video denoising algorithm based on a convolutional neural network architecture. Until recently, video denoising with neural networks had been a largely under explored domain, and existing methods could not compete with the performance of the best patch-based methods. The approach we introduce in this paper, called FastDVDnet, shows similar or better performance than other state-of-the-art competitors with significantly lower computing times. In contrast to other existing neural network denoisers, our algorithm exhibits several desirable properties such as fast runtimes, and the ability to handle a wide range of noise levels with a single network model. The characteristics of its architecture make it possible to avoid using a costly motion compensation stage while achieving excellent performance. The combination between its denoising performance and lower computational load makes this algorithm attractive for practical denoising applications. We compare our method with different state-of-art algorithms, both visually and with respect to objective quality metrics.
 
第一句,本文研究方向:本文提出了一种最新的基于卷积神经网络结构的视频去噪算法。
第二句,提出要解决的问题(motivation):1)神经网络的视频去噪在很大程度上还是一个有待开发的领域;2)现有的方法无法与最好的 patch-based 的方法竞争。
第三句,本文的核心成果:FastDVDnet,好的性能,且计算时间明显更短。(这两个性能往这里一写,使审稿人/读者对本文产生兴趣)
第四句,继续介绍方法的优点:1)运行时间快;2)不同级别的噪声去噪效果都很好。
第五句,解释为啥有上述优点:不需要运动补偿阶段(motion compensation stage,即题目中的 Without Flow Estimation),所以运行速度快。
第六句,说明在应用领域的优点:该算法的去噪性能和较低的计算量使其在实际去噪应用中具有很大的吸引力。
第七句,介绍评价方法:将本文的方法与不同的最先进的算法进行比较,包括视觉上的和相对于客观的质量指标。
 
该摘要的特点是:
1. 没有介绍具体的方法细节,而是介绍方法的优势。
2. 特意强调在实际应用中优势很大。
 
这种写法的文章,作者是对自己的方法在性能和实际应用中信心很足,要比那种直接介绍网络结构细节的摘要更吸引读者。
 
 

FastDVDnet

  • 背景介绍:
对于视频去噪算法,时间相干性和闪烁去除是影响结果感知质量的关键方面 [33,32]。为了实现这一点,在对图像序列的给定帧进行去噪时,算法必须利用相邻帧中存在的时间信息。而大多数基于深度学习的视频去噪算法未能有效地使用此时间信息。成功的 SOTA 算法主要依靠两个因素来加强结果的时间相干性,即搜索区域从空间邻域扩展到体积(volumetric)邻域,以及使用运动估计(motion estimation)。
 
使用体积 ( volumetric,i.e. spatio-temporal ) 邻域意味着,当去噪给定像素 (或 patch) 时,算法不仅要在参考帧中寻找相似的像素 (或 patch),而且要在序列的相邻帧中寻找。这样做的好处有两方面。首先,时域邻居提供额外的信息,可以用来去噪参考框架。其次,使用时间邻居有助于减少闪烁,因为残差在每帧将被关联。
 
视频具有很强的沿运动轨迹的时间冗余。这一事实应该有利于视频去噪与去噪图像。然而,在时间维度上增加的信息也造成了额外的复杂性,可能难以处理。在这种情况下,运动估计和/或补偿已被用于许多视频去噪算法,以帮助提高去噪性能和时间一致性。
 
  • 本文方法的总体认识:
因此,本文将这两个元素(即时间一致性和去噪)合并到一个架构中。具体特点包括:
1. 该算法不包括一个明确的运动估计/补偿阶段。处理物体运动的能力是内在地嵌入到本文的网络结构中的。
2. 该架构是由许多修改过的 U-Net 块组成的。多尺度、类似 U 型网络的体系结构已被证明具有学习不对准(misalignment)的能力。事实上,本文的级联结构进一步提高了处理移动的能力。
3. 该架构是端到端训练的,没有光流对齐,这避免了由于错误流造成的畸变和伪影。
4. 因此,本文的方法能够消除昂贵的专用运动补偿阶段,而不牺牲性能。该算法运行速度比 VNLB [2] 快三个数量级,比 DVDnet [38] 和 VNLnet [11] 快一个数量级。
 
[2]  Video denoising via empirical bayesian estimation of space-time patches. Journal of Mathematical Imaging and Vision, 2018.
[38] DVDnet: A fast network for deep video denoising. ICIP, 2019.
[11] Non-local video denoising by CNN. CVPR, 2019.
 
 
  • 关于网络的输入:
输入是当前图像帧和前后各两个图像帧:
该模型由不同的时空去噪块组成,采用级联两步结构组装。这些去噪块都是相似的,由一个改进的以三帧为输入的 U-Net 模型组成。
第一步去噪的三个区块的权值相同,从而减少了模型对内存的需求,简化训练。
噪声图也作为输入,允许处理空间变化的噪声。特别地,噪声图是一个单独的输入,它向网络提供关于输入处噪声分布的信息。该信息被编码为该噪声的预期逐像素标准差。例如,对高斯噪声去噪时,噪声图将保持不变;当去除泊松噪声,噪声图将取决于图像的强度。
与其他去噪算法不同的是,我们的去噪算法除了图像序列和输入噪声的估计外,不接受其他参数作为输入。
注意到本文的实验集中在加性高斯白噪声 (AWGN) 的情况下。然而,这个算法可以扩展到其他类型的噪声,例如空间变化的噪声 (例如泊松)。设 I 是一个无噪声图像,而 I~ 是它的噪声版本,由标准偏差σ 的零均值高斯白噪声 N 的实现所破坏,那么 
 
 

Denoising blocks

整体网络如图,由 Denoising Block 1 and Denoising Block 2 组成。其中,每个 block 都是如 (b)中的 U-Net 组成,且Denoising Block 1 中 U-Net 的参数是共享的。
 
U-Net 特点:
1. 编码器的输入是连续 3 帧图像;
2. 解码器的上采样是用 PixelShuffle 层 [34],这有助于减少网格伪影; 
[34] Real-time single image and video super-resolution using an efficient sub-pixel convolutional neural network.  IEEE, 2016.
3. 编码器的特性与解码器的特性的合并是通过像素级的加法操作完成的,而不是通过通道级联完成的。这将减少内存需求;
4. Blocks 实现残差学习-在中央噪声输入帧和输出帧之间有残差连接
 
 
Figure 1. Architecture used in FastDVDnet. (a) A high-level diagram of the architecture. Five consecutive frames are used to denoise the middle frame. The frames are taken as triplets of consecutive frames and input to the Denoising Blocks 1. The instances of these blocks have all the same weights. The triplet composed by the outputs of these blocks are used as inputs for Denoising Block 2. The output of the latter is the estimate of the central input frame (Input frame t). Both Denoising Block 1 and Denoising Block 2 share the same architecture, which is shown in (b). The denoising blocks of FastDVDnet are composed of a modified multi-scale U-Net.
 
 
 

Discussion

Two-step denoising

上面(a)中的结构是用两个 Denoising Block 实现的,如果使用一个呢?即直接对 5 帧图像处理,作者称之为 Den_ Block_5inputs,如下图:
Figure 2. Architecture of the Den_ Block_5inputs denoiser.
 
作者的实验发现,Den_ Block_5inputs 的结果显示了时间伪影闪烁的急剧增加。尽管 Den_ Block_5inputs 是一个多尺度结构,但它不能像 FastDVDnet 的两步结构那样处理序列中物体的运动。总的来说,两步体系结构比一步体系结构表现出更好的性能。
 
 
 

Handling of motion

之前作者一直说,该网络能够自动学习运动估计(不需要额外设计网络学习),那这种设计具体有什么优点呢?两点:节约运行时间,避免伪影。
 
除了减少运行时间外,避免利用光流进行运动补偿还有一个优点。明确依赖于运动估计技术的视频去噪算法通常会在具有挑战性的情况下出现伪影,如遮挡或强噪声。本节讨论的不同技术,即去噪块的多尺度、级联的两步去噪架构和端到端训练,不仅提供了FastDVDnet处理运动的能力,而且有助于避免与错误流量估计相关的伪影。同样,与[43,38,37]相似,FastDVDnet的去噪块实现了残差学习,这有助于进一步提高结果的质量。
 
 
 
 
 
 
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值