Cascaded Deep Video Deblurring Using Temporal Sharpness Prior##级联深度视频去模糊使用时间锐化先验阅读笔记

最新推荐文章于 2024-06-26 09:39:47 发布

qq_38477064

最新推荐文章于 2024-06-26 09:39:47 发布

阅读量1.1k

点赞数

文章标签： python 计算机视觉神经网络网络算法

原文链接：https://arxiv.org/abs/2004.02501

版权

视频去模糊深度学习光流估计时间锐度先验级联训练

关键词由CSDN通过智能技术生成

Cascaded Deep Video Deblurring Using Temporal Sharpness Prior

Paper：https://arxiv.org/abs/2004.02501
code：https://github.com/csbhr/CDVD-TSP.
作者：Jinshan Pan, Haoran Bai, and Jinhui Tang Nanjing University of Science and Technology

Abstract

提出了一种简单有效的深度卷积神经网络(CNN)视频去模糊模型。该算法主要由中间潜在帧的光流估计和潜在帧的恢复步骤组成。首先建立一个深度的CNN模型来估计中间潜在帧的光流，然后根据估计的光流恢复潜在帧。为了更好地挖掘视频中的时间信息，我们在约束深度CNN模型之前建立了一个时间锐度来帮助潜在帧的恢复。我们开发了一种有效的级联训练方法，并以端到端方式共同训练所提出的CNN模型。研究表明，深入挖掘视频去模糊的领域知识可以使深度CNN模型更加紧凑和高效。大量的实验结果表明，该算法在基准数据集和真实视频上的性能优于最新的方法。

1. Introduction

视频去模糊是视觉和图形领域的一个基本问题，旨在从模糊序列中估计潜在帧。随着越来越多的视频使用手持和车载视频捕捉设备拍摄，这个问题在过去十年中得到了积极的研究。视频中的模糊通常是由相机抖动、物体运动和深度变化引起的。由于只给出了模糊视频，因此恢复潜在帧是非常病态的。为了从模糊序列中恢复潜在帧，传统的方法通常对运动模糊和潜在帧进行假设。在这些方法中，运动模糊通常被建模为光流[12,2,5,29]。这些方法的成功之处在于在一些手工先验的约束下联合估计光流和潜在帧。这些算法是物理上的启发而产生有希望的结果。然而，对于运动模糊和潜在帧的假设往往导致复杂的能量函数难以求解。

深度卷积神经网络(CNN)作为最有前途的方法之一，已经被开发用于解决视频清模糊问题。Su等[24]在深CNN在单幅图像清模糊方面取得成功的激励下，将连续帧拼接在一起，开发了一种基于编解码器结构的深CNN，直接估计潜在帧。Kim等[13]开发了一种深度递归网络，通过串联多帧特征来递归恢复潜在帧。为了更好地捕获时间信息，Zhang等[31]开发了时空三维卷积来帮助潜在帧恢复。当运动模糊不明显，输入帧间位移较小时，这些方法都有很好的效果。但是，它们很少对于包含显著模糊和大位移的帧有效，因为他们不考虑输入帧之间的对齐【6】。

为了解决这个问题，有几种方法使用端到端可训练的深度cnn来显式估计连续输入帧之间的对齐[14,3,27]或隐式[32]来恢复潜在帧。例如，[10]和[19]对齐方法已经被扩展到[14]和[32]处理视频去模糊。通过[3,27]的方法明确采用光流或可变形卷积来估计连续输入帧之间的对齐，以帮助视频去模糊。这些算法表明，采用更好的对齐策略可以提高视频去模糊的性能。然而，这些算法的主要成功的原因是由于大容量模型的使用。这些模型不能很好地推广到实际案例中。我们注意到基于变分模型的方法中存在大量的先验知识，并且在视频去模糊中是有效的。一个自然的问题是，我们能否利用基于变分模型的方法中的领域知识，使CNN的深度模型更加紧凑，从而提高视频去模糊的准确性?

为了解决这个问题，我们提出了一个简单紧凑的CNN视频去模糊模型。与基于变分模型的方法不同的是，我们的算法将相邻的帧变形为参考帧，这样连续的帧就能很好地对齐，从而产生更清晰的中间潜在帧。由于生成的中间潜在帧可能含有伪影和模糊效果，我们进一步开发了基于编码器-解码器架构的深度CNN模型来去除伪影和模糊。为了更好地探索连续帧的特性，我们在约束深度CNN模型之前开展了时间锐度。然而，由于我们的算法估计光流从中间潜在帧作为运动模糊信息，它需要一个反馈环路。为了有效地训练所提出的算法，我们开发了一种级联训练方法，并以端到端方式共同训练所提出的模型。大量实验表明，与图1所示的最新方法相比，所提出的算法能够产生良好的结果。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Rlz77QT2-1605435254641)(C:\Users\wqj\AppData\Roaming\Typora\typora-user-images\image-20201111210549045.png)]

图1所示。解模糊的结果在一个真正具有挑战性的视频。我们的算法的动机是成功的变分模型的基础上。它通过时间锐化先验(见(f))探索相邻帧的锐化像素，并通过级联推理过程恢复锐化视频。我们的分析显示,执行前颞清晰度在深卷积神经网络(CNN)和学习深度CNN的一个级联推理方式可以使深CNN更加紧凑,从而生成结果比CNN-based方法[27日32]和[12]变分模型方法能更好的去模糊。

主要贡献总结如下:

1.我们提出了一个简单而紧凑的深度CNN模型，同时估计光流和潜在帧用于视频去模糊

2.为了更好地探索连续帧的特性，我们在约束深度CNN模型之前开发了时间锐度。

3.我们在基准数据集和真实视频上定量和定性地评估了所提出的算法，表明它在精度和模型大小方面优于最新的方法。

2. Related Work

**手工的先验方法。**早期的视频或多帧去模糊方法[4,18]通常假设存在尖锐的内容，对其进行插值以帮助恢复潜在帧。这些方法的主要成功是由于使用尖锐的内容从相邻帧。然而，这些方法对于运动物体造成的模糊效果较差，通常由于插值而产生平滑的结果。

为了克服这个问题，几种算法[5,11,12,16]用变分方法制定了视频去模糊。这些算法首先将运动模糊表示为光流，并建立各种先验来约束潜在帧和光流来进行视频去模糊。Dai和Wu[5]分析了运动模糊和光流的关系，交替估计了潜在帧的透明度地图、前景和背景。由于这种方法依赖于透明映射的准确性，[11]进一步扩展了它，其中的去模糊过程是通过交替估计光流和潜在帧来实现的。Kim等人使用以[11]为基础的双向光流近似运动模糊。为了处理更复杂的运动模糊，Gong等人[7]开发了CNNs来估计光流，并使用传统的反褶积算法[33]来恢复潜在帧。在[29]中，伍尔夫和布莱克开发了一种新颖的场景分层模型，并逐层恢复了潜在帧。这些算法是基于物理模型，能够消除模糊和产生良好的结果。而运动模糊和潜在帧的先验作用往往导致复杂的能量函数难以求解。

基于深度学习的方法。由于基于编码器和解码器架构的CNNs在图像复原中的成功[23,17]，这种网络被广泛应用于多帧[1]或视频去模糊[24]中。Zhang等[31]没有使用2D卷积，而是使用时空3D卷积来帮助恢复潜在帧。[6]的实验表明，利用光流对这些方法进行校准可以得到改进。为了更好地利用空间和时间信息，Kim等人[14]开发了一个光流估计步骤，用于对相邻帧的对齐和聚合信息，以恢复潜在信息。Wieschollek等人[28]基于递归网络在多个尺度上反复使用前一帧的特征。在[13]中，Kim等人开发了一个带有动态时间混合层的时空递归网络用于潜在帧恢复。Zhou等人扩展了核预测网络[19]来改善帧对齐。在[27]中，Wang等人开发了金字塔、级联和可变形卷积以获得更好的对齐性能。利用带有时间和空间注意策略的CNN深度模型对潜在帧进行恢复。通过以端到端的方式训练网络，上述方法产生了很好的去模糊结果。

**我们的方法。**我们注意到，这些算法在视频去模糊上的主要成功是由于使用了大容量模型。它们在实际应用中的泛化能力是有限的，如图1所示。与这些方法不同的是，我们探索简单而完善的原则，使CNN模型更加紧凑，而不是扩大网络模型容量来进行视频去模糊。

3. Motivation

为了更好地激励我们的工作，我们首先重访了传统的基于变分模型的方法。

对于视频中的模糊过程，通常将第i个模糊图像建模为:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Esl534iQ-1605435254642)(C:\Users\wqj\AppData\Roaming\Typora\typora-user-images\image-20201111213257176.png)]

式子中 I(i) 表示第 i 个清晰图像；τ 表示相对曝光时间（也就是相机占空比）；

(t)Ht(i–i+1) and (t)Ht(i–i-1) 表示将 I(i) 帧扭曲成 I(i+1) 和 I(i-1) 帧的弯曲函数；

如果我们表示在坐标系 i 处的双向光流为 U(i–i+1) 和 U(i–i-1) , [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-1ZS2efPr-1605435254643)(C:\Users\wqj\AppData\Roaming\Typora\typora-user-images\image-20201111215510120.png)]

可以表示为[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-2fikVK0v-1605435254645)(C:\Users\wqj\AppData\Roaming\Typora\typora-user-images\image-20201111215558382.png)]；

基于模糊模型(1)，去模糊过程可以通过最小化:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-dYGT5Xyq-1605435254645)(C:\Users\wqj\AppData\Roaming\Typora\typora-user-images\image-20201111215700463.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-5rSzKblO-1605435254645)(C:\Users\wqj\AppData\Roaming\Typora\typora-user-images\image-20201111215749154.png)]表示数据项 w.r.t.[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-WvU8ZOzN-1605435254646)(C:\Users\wqj\AppData\Roaming\Typora\typora-user-images\image-20201111220006993.png)]和[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-7I7HR1zC-1605435254647)(C:\Users\wqj\AppData\Roaming\Typora\typora-user-images\image-20201111220038693.png)] ；[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-d2yqHkzz-1605435254648)(C:\Users\wqj\AppData\Roaming\Typora\typora-user-images\image-20201111220110857.png)]表示（1）中的积分项；

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-nd9wz0h2-1605435254648)(C:\Users\wqj\AppData\Roaming\Typora\typora-user-images\image-20201111220358032.png)]表示数据项w.r.t.[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-uN49psUi-1605435254648)(C:\Users\wqj\AppData\Roaming\Typora\typora-user-images\image-20201111220516058.png)] ;[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-GoNoznVA-1605435254649)(C:\Users\wqj\AppData\Roaming\Typora\typora-user-images\image-20201111220557307.png)]表示隐藏帧的约束条件[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Yj7wss8B-1605435254650)(C:\Users\wqj\AppData\Roaming\Typora\typora-user-images\image-20201111220730246.png)]和光流[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-YsxhdgbK-1605435254650)(C:\Users\wqj\AppData\Roaming\Typora\typora-user-images\image-20201111220755297.png)]

在优化过程中，大多数传统方法(如[12])通过迭代最小化来估计潜藏帧和光流:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-veSlK5Jg-1605435254650)(C:\Users\wqj\AppData\Roaming\Typora\typora-user-images\image-20201111220937113.png)]

我们注意到交替地最小化(3)和(4)可以消除模糊。然而，消除模糊效果主要取决于约束w.r.t的选择。隐藏帧的约束条件[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-p0MUIrrF-1605435254651)(C:\Users\wqj\AppData\Roaming\Typora\typora-user-images\image-20201111220730246.png)]和光流[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-lkIT5Npr-1605435254651)(C:\Users\wqj\AppData\Roaming\Typora\typora-user-images\image-20201111220755297.png)] 确定合适的约束条件并不是件容易的事。此外，常用的约束往往导致目标函数高度非凸，难以求解。

我们进一步指出，大多数基于cnn的方法直接从模糊的输入中估计清晰的视频，并产生有前景的结果。然而，他们用模糊的输入而不是隐藏的帧来估计弯曲函数（warping），并且没有探索视频去模糊的领域知识，这对于模糊效果明显的视频效果较差。

为了克服这些问题，我们开发了一种有效的算法，该算法充分利用基于变分模型的方法中公认的原则，并探索领域知识，使深度CNNs在视频去模糊中更加紧凑。

4. Proposed Algorithm

该算法包含了光流估计模块、潜像恢复模块和时间锐度先验。光流估计模块为潜在帧恢复提供运动信息，而潜在帧恢复模块进一步简化了光流估计，使估算的流量更加准确。时间锐度先验能够从相邻帧中提取锐度像素，从而实现更好的帧恢复。所有模块以端到端方式在统一框架内进行联合培训。下面，我们将详细解释每个组件的主要思想。为了简单起见，我们使用三个相邻的帧来说明提出的算法的主要思想。（读后感：时间锐度先验提取相临帧质量相对比较好的像素，然后根据此进行光流估计提供潜在帧的运动信息进而用潜帧恢复模块恢复潜帧(反过来潜在帧恢复模块简化了光流估计使估算更加准确)）

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-CgolbJo3-1605435254652)(C:\Users\wqj\AppData\Roaming\Typora\typora-user-images\image-20201114102133426.png)]

4.1. Optical flow estimation

光流估计模块用于估计输入相邻帧之间的光流，其中估计的光流为图像恢复提供了运动信息(3)。如[25]所示，光流估计(4)可以通过深度神经网络有效求解。我们采用PWC-Net[25]作为光流估计算法。对于任意两个中间潜在帧Ii 和 Ii+1，我们通过:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-bddvF5aD-1605435254652)(C:\Users\wqj\AppData\Roaming\Typora\typora-user-images\image-20201112102229284.png)]式中，nf表示以两幅图像为输入的光流量估计网络。对于其他任何两个帧，网络nf共享相同的网络参数。

4.2. Latent frame restoration

根据估计的光流，我们可以使用变分模型(3)根据现有的方法(如[12])恢复潜在帧。但求解(3)涉及到 W(Ii) 的大量计算，且需要定义潜在帧Ii上的先验，使得复原更加复杂。我们注意到，W(Ii) (即模糊过程(1)) 的效果是生成一个模糊的帧，使其尽可能接近观察的输入帧Bi。(1)的离散化可以写成[4]:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Ab7ejSxG-1605435254652)(C:\Users\wqj\AppData\Roaming\Typora\typora-user-images\image-20201112103410484.png)]

根据估计的光流量ui→i+1和ui→i−1，如果我们将 τ 该值设为1, W(Ii) 可近似为:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-eVNMxCdC-1605435254653)(C:\Users\wqj\AppData\Roaming\Typora\typora-user-images\image-20201112103547069.png)]

我们希望根据估计的光流 Ui−1→i,和 Ui+1→i 所以 Ii+1(x+ui+1→i) 和 Ii−1(x+ui−1→i)可以很好地与 Ii(x) 对齐，而不是生成一个模糊的帧。因此，我们可以使用以下公式更新潜帧 Ii：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-YyVxpjM5-1605435254654)(C:\Users\wqj\AppData\Roaming\Typora\typora-user-images\image-20201112104129834.png)]

然而，直接使用(8)会导致Ii+1(x + ui+1→i)和Ii−1(x + ui−1→i)的错位导致结果中含有明显的伪影。为了避免这个问题，生成高质量的潜帧Ii，我们使用Ii+1(x + ui+1→i)和Ii−1(x + ui−1→i)作为引导帧，开发一个深度 CNN模型来恢复潜帧 Ii 通过:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-KHEbYglU-1605435254654)(C:\Users\wqj\AppData\Roaming\Typora\typora-user-images\image-20201112104300749.png)]

其中 C(·) 为连接操作，NL 为恢复网络。与[25]相似，我们使用双线性插值来计算扭曲的帧。

对于深度CNN模型 NL，我们采用了基于[26]的编解码器架构。但是，我们在 NL 中不使用ConvLSTM模块。其他网络架构与[26]相同。

4.3. Temporal sharpness prior（时间锐度先验）

如[4]所示，视频中的模糊是不规则的，因此存在一些未模糊的像素。按照传统的方法[4]，我们探索这些清晰度像素，以帮助视频去模糊。

根据扭曲帧Ii+1(x + ui+1→i)和Ii-1(x+ui-1→I)，如果 Ii(x) 中的像素x是锐像素，则Ii+1(x + ui+1→i)和Ii-1(x+ui-1→I)的像素值应该接近Ii(x)的像素值。因此，我们将该标准定义为:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-4wrgz5dz-1605435254654)(C:\Users\wqj\AppData\Roaming\Typora\typora-user-images\image-20201112105023878.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-twej4eWM-1605435254655)(C:\Users\wqj\AppData\Roaming\Typora\typora-user-images\image-20201112105253937.png)]，

基于(10)，如果Si(x)的值接近1，则像素x很可能是清晰的。因此，我们可以使用Si(x)来帮助深层神经网络区分像素是否清晰，从而帮助潜在帧恢复。为了增加Si(x)的鲁棒性，我们定义了D(Ii+j(x+ui+j→I)；Ii(x))为：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Z8cMB584-1605435254656)(C:\Users\wqj\AppData\Roaming\Typora\typora-user-images\image-20201112105442054.png)]

其中ω(x)表示以像素x为中心的图像块。在时间锐度在Si(x)之前的情况下，我们通过以下方式修改潜在帧恢复(9)：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-0flYIaGk-1605435254656)(C:\Users\wqj\AppData\Roaming\Typora\typora-user-images\image-20201112105542271.png)]（恢复潜在帧）

4.4. Inference

由于所提出的算法包含光流估计、潜在帧估计和时间锐度计算的中间，我们以级联方式训练所提出的算法。

设θt = { Ot，Lt}表示光流估计和潜在帧恢复网络在阶段(迭代)t的模型参数，我们从N个训练视频序列中学习阶段相关的模型参数θt，其中每个视频序列包含{Bn i，In gt，i } M i =训练样本。给定2j + 1个模糊帧，通过最小化代价函数来学习参数θ：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-VdU3R6lw-1605435254656)(C:\Users\wqj\AppData\Roaming\Typora\typora-user-images\image-20201112105930096.png)]

其中fθt表示用于视频去模糊的整个网络，其将2j + 1个模糊帧作为输入。也就是说，t阶段的中间潜帧是It i =Fθt(Bn i j；…；bn i；…；Bn i+j)。

算法1总结了级联训练方法的主要步骤，其中T表示级数。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-WhOptyNO-1605435254657)(C:\Users\wqj\AppData\Roaming\Typora\typora-user-images\image-20201112110116048.png)]

5. Experimental Results

在本节中，我们使用公开可用的基准数据集来评估所提出的算法，并将其与最先进的方法进行比较。

5.1. 参数设置和训练数据

为了与最先进的方法进行公平的比较，我们使用苏等人[24]的视频去模糊数据集进行训练和评估，其中61个视频用于训练，其余10个视频用于测试。我们使用类似于[32]的数据扩充方法来生成训练数据。每个图像块的大小为256 × 256像素。我们根据[8]初始化潜帧恢复网络，从头开始训练。对于PWC-Net，我们使用预训练模型[25]来初始化它。在训练过程中，我们使用参数β1= 0.9、β2= 0.999和 e= 10 8。迷你批次大小设置为8。Nland PWC-Net的学习速率初始化为10.-4和10.-6，每200个周期后降低一半。我们根据经验设定T = 2作为精确度和速度之间的折衷。在每个阶段，我们使用3帧来生成一个去模糊图像。因此，当T = 2时，所提出的算法需要5帧。为了更好地使网络紧凑，每个阶段的网络共享相同的模型参数。类似于[30]，我们进一步使用硬示例挖掘策略来保留锐边。我们基于PyTorch实现了我们的算法。补充材料中包含了更多的实验结果。训练代码和测试模型可以在作者的网站上找到。

5.2. Comparisons with the state of the art

为了评估所提出算法的性能，我们将其与包括基于变分模型的方法[12]和基于深层神经网络的方法[24，7，27，13，14，32，26]在内的最先进算法进行了比较。为了评估合成数据集上每个恢复图像的质量，我们使用PSNR和SSIM作为评估指标。

表1显示了苏等人[24]在基准数据集上的定量结果，其中所提出的算法在和方面优于最先进的方法。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-kDM1G8e5-1605435254657)(C:\Users\wqj\AppData\Roaming\Typora\typora-user-images\image-20201112111133631.png)]

表1 .根据PSNR和SSIM对视频去模糊数据集[24]进行定量评估。所有的比较结果都是使用公开的代码生成的。所有恢复的帧而不是从每个测试组[24]中随机选择的30帧用于评估

图2显示了测试数据集的一些去模糊结果[24]。基于变分模型的方法[12]不能很好地恢复结构，并且产生具有显著模糊残留的结果。该方法[26]开发了端到端可训练的深度CNN模型来去模糊动态场景。然而，由于没有使用时间信息，去模糊图像包含显著的模糊残留。视频去模糊算法[24]直接连接连续帧作为端到端可训练深度CNN模型的输入。然而，去模糊图像的结构并不清晰(图2(e))。我们注意到，**EDVR方法[27]开发了金字塔、级联和可变形对准模块，并使用预模糊模块进行视频去模糊。**然而，当预模糊没有从输入帧中消除模糊时，这种方法就不那么有效了。图2(f)中的结果表明，用EDVR方法得到的图像结构恢复得不好。相比之下，所提出的方法比最先进的算法恢复更精细的图像细节和结构。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Q3zQkdpc-1605435254657)(C:\Users\wqj\AppData\Roaming\Typora\typora-user-images\image-20201112111304723.png)]

图2。测试数据集上的去模糊结果[24]。©-(g)中的去模糊结果仍然包含显著的模糊效果。所提出的算法生成更清晰的帧。

我们进一步在GOPRO数据集上评估了所提出的方法。[20]遵循最先进方法的协议[13，21]。表2显示，所提出的算法生成具有较高PSNR值和SSIM值的去模糊视频。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-tfkKDqI9-1605435254658)(C:\Users\wqj\AppData\Roaming\Typora\typora-user-images\image-20201112111521751.png)]

表2 .根据PSNR和SSIM对视频去模糊数据集[20]进行定量评估。*表示[21]中报告的结果。

图3显示了[20]中的一些去模糊结果。我们注意到，最先进的方法不能产生清晰的图像，也不能很好地消除不均匀的模糊。相比之下，所提出的算法恢复更清晰的图像，其中许可证号码是可识别的。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-WybsFiVd-1605435254658)(C:\Users\wqj\AppData\Roaming\Typora\typora-user-images\image-20201112111834360.png)]

图3。测试数据集上的去模糊结果[20]。所提出的方法产生更好的去模糊图像，其中许可证号码是可识别的。

真实例子。我们在Cho等人的真实视频去模糊数据集上进一步评估了我们的算法。图4显示最先进的方法[22，4，12，32，27，24]不能很好地恢复清晰的帧。我们的算法生成更清晰的帧，具有更好的细节结构。比如人和建筑的界限就清晰多了(图4(h))。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-iAr4Ko1k-1605435254658)(C:\Users\wqj\AppData\Roaming\Typora\typora-user-images\image-20201112111947780.png)]

图4。来自[4]的真实视频的去模糊结果。该算法恢复出的高质量图像细节更加清晰。

6. Analysis and Discussions

我们已经表明，所提出的算法与最先进的方法相比表现良好。为了更好地理解所提出的算法，我们执行进一步的分析并讨论其局限性。

6.1. Effectiveness of the cascaded training(级联训练的有效性)

所提出的级联训练算法确保所提出的方法从中间潜在帧估计光流并迭代地更新中间潜在帧。人们可能想知道级联训练算法是否有助于视频去模糊。为了回答这个问题，我们比较了不使用级联训练算法的方法(即表3中的w/o CT)，其中我们将算法1中的阶段数T设置为1，以进行公平比较。

表3显示了苏等人对基准数据集的定量评估。我们注意到，不使用级联训练算法的方法使用PWC-Net从模糊输入中估计光流，其中该策略广泛用于视频去模糊中的图像对齐[6]。然而，这种方法不能产生高质量的去模糊结果(图5(b))，因为光流与潜在帧信息有关，而不是曝光期间的模糊帧信息。相比之下，所提出的算法生成的结果具有更高的PSNR和SSIM值。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-m9OowR3Q-1605435254659)(C:\Users\wqj\AppData\Roaming\Typora\typora-user-images\image-20201112113140769.png)]

我们进一步比较了表3和图5中不同阶段产生的去模糊结果。我们注意到使用更多的阶段产生更好的去模糊图像。然而，性能的提高并不显著。因此，我们使用两个阶段作为准确性和速度之间的权衡。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-hlpkOONu-1605435254659)(C:\Users\wqj\AppData\Roaming\Typora\typora-user-images\image-20201112113428904.png)]

表3 .级联训练算法对视频去模糊的有效性，其中“CT”是级联训练的缩写。

我们还注意到，从模糊输入直接估计光流将增加视频去模糊的帧边界的模糊度。图6(d)表明估计的光流的边界是模糊的，这相应地影响了重要的边界恢复(图6(b))。相比之下，所提出的方法的光流包含清晰的边界(图6(f))，这有利于潜在帧恢复(图6©)。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-6bLOTBbP-1605435254660)(C:\Users\wqj\AppData\Roaming\Typora\typora-user-images\image-20201112113256526.png)]

图6。光流对视频去模糊的影响。通过所提出的方法得到的光流包含清晰的边界(见(f))，这有利于潜在帧的恢复。

6.2. Effectiveness of the temporal sharpness prior（时间锐度的有效性）

我们在更好地探索连续帧的属性之前开发了时间锐度，使得深度CNN模型更加紧凑。为了证明这种先验的有效性，我们在提出的方法中禁用这种先验，并在不使用时间锐度先验的情况下对算法进行重新训练，使用相同的设置进行公平比较。我们从测试数据集[24]中评估了具有显著模糊效果的4个视频的时间锐度先验。表4和图7显示了定量和定性评估。我们注意到，时间锐度先验能够区分相邻帧的锐度像素和模糊像素，从而可以帮助深度CNN模型更好地进行帧恢复。图7(b)显示了时间锐度先验的可视化，其中模糊的像素可以更好地被检测到。表4中的比较表明，使用时间锐度先验能够提高视频去模糊的准确性。图7进一步示出了使用时间锐度先验能够生成具有更清晰结构的帧。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-bOcUalbX-1605435254660)(C:\Users\wqj\AppData\Roaming\Typora\typora-user-images\image-20201112115543146.png)]

表4 .时间锐度先验对视频去模糊的有效性

6.3. Effect of optical flow

由于几种算法或者直接连接连续帧[24]或者估计滤波器核[32]，而不是使用光流来进行视频去模糊，人们可能想知道光流是否有助于视频去模糊。为了回答这个问题，我们移除光流估计模块，并与直接连接连续帧作为恢复网络Nl1的输入的方法进行比较。表5显示使用光流能够提高视频去模糊的性能。

此外，我们使用FlowNet 2.0进一步评估了光流估计模块[9]。表5显示了所提出的方法对于光流模块是鲁棒的。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-o62AAbEd-1605435254660)(C:\Users\wqj\AppData\Roaming\Typora\typora-user-images\image-20201112120016181.png)]

6.4. Model size

如第1节所述，我们的目标是提高视频去模糊的准确性，同时不使用视频去模糊的领域知识来增加模型容量。表6显示，与最先进的方法相比，所提出的算法具有相对较小的模型尺寸。与基线模型相比，所提出的模型在产生更好结果的同时不增加任何模型尺寸。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-0ynbn3qj-1605435254661)(C:\Users\wqj\AppData\Roaming\Typora\typora-user-images\image-20201112120126307.png)]

表6 .模型大小与最先进的方法和基线的比较。“TSP”是时间锐度先验的缩写。

6.5. Limitations

尽管时间锐利度先验对于具有显著模糊的视频是有效的，但是当模糊存在于所有帧的每个位置时，它的效果较差。在这种情况下，时间锐度先验不太可能区分像素是否更清晰。表7显示了来自测试数据集[24]的3个视频的去模糊结果，其中帧中的每个位置都包含模糊效果。我们注意到，使用时间锐度先验不会显著改善去模糊性能。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-SZeMEd5M-1605435254661)(C:\Users\wqj\AppData\Roaming\Typora\typora-user-images\image-20201112120303635.png)]

表7 .对模糊视频的评价，其中模糊存在于每个帧的每个位置。当时间锐利度先验不能识别清晰像素时，它的效果较差。

7. Concluding Remarks

果较差。在这种情况下，时间锐度先验不太可能区分像素是否更清晰。表7显示了来自测试数据集[24]的3个视频的去模糊结果，其中帧中的每个位置都包含模糊效果。我们注意到，使用时间锐度先验不会显著改善去模糊性能。

[外链图片转存中…(img-SZeMEd5M-1605435254661)]

表7 .对模糊视频的评价，其中模糊存在于每个帧的每个位置。当时间锐利度先验不能识别清晰像素时，它的效果较差。

7. Concluding Remarks

我们提出了一种简单有效的视频去模糊深度CNN模型。本文提出的CNN探索了基于变分模型的方法中使用的简单而完善的原理，主要包括中间潜在帧的光流估计和潜在帧的恢复。我们开发了一种用于帮助潜像恢复的时间锐度，以及一种有效的级联训练方法来训练所提出的CNN模型。通过端到端的训练，我们已经证明了所提出的CNN模型更加紧凑和高效，在基准数据集和真实视频上都优于最新的方法。

qq_38477064

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
2
评论
Cascaded Deep Video Deblurring Using Temporal Sharpness Prior##级联深度视频去模糊使用时间锐化先验阅读笔记

Cascaded Deep Video Deblurring Using Temporal Sharpness PriorPaper：https://arxiv.org/abs/2004.02501code：https://github.com/csbhr/CDVD-TSP.作者：Jinshan Pan, Haoran Bai, and Jinhui Tang Nanjing University of Science and TechnologyAbstract 提出了一种简单有效的深度卷积
复制链接

扫一扫