Hand-held Video Deblurring via Efficient Fourier Aggregation

最新推荐文章于 2024-08-16 07:33:55 发布

Adagrad

最新推荐文章于 2024-08-16 07:33:55 发布

阅读量560

点赞数

Abstract

手持摄像机拍摄的视频经常会出现大量的模糊，主要是由于摄影师的手不可避免地自然颤抖造成的。在这项工作中，我们提出了一种算法，通过结合附近帧的傅立叶域信息来消除相机抖动造成的模糊。具有多运动对象和遮挡的典型视频的动态性使去除相机抖动的问题极具挑战性，尤其是在需要低复杂度的情况下。给定一个输入视频帧，我们首先创建一个时间相邻帧的一致融合版本。然后，在傅立叶域中对一致融合帧集进行分段融合，权重取决于傅立叶谱幅值。该方法的动机是，相机抖动模糊具有随机性，因此，附近的视频帧通常是不同的模糊。在野外录制了大量视频，并进行了大量比较，实验表明，该算法在取得最先进的结果的同时，比其竞争对手快得多。

1. INTRODUCTION

手持摄像机拍摄的视频经常出现大量的模糊，主要是由于摄影师的手颤抖造成的。当在昏暗的光线条件下拍摄时，这个问题会加剧，因为在模糊的顶部引入了显著的噪声。虽然目前最先进的光学图像稳定器缓解了这一问题，但它们的性能还远远不够完善。

视频帧的获取通常被建模为卷积

$\small v=u\star k+n$ (1)

其中v为噪声模糊观测，u为底层锐化图像，k为未知模糊核，n为加性白噪声。视频帧中的模糊是由不同的现象引起的。所有数码相机都将通过相机传感器上的光线集成和相机光圈上的光线衍射产生最小量的图像模糊。此外，图像模糊可能是错误设置相机焦点或具有有限景深的结果。在帧采集过程中，相机与场景中物体之间存在的相对运动也会导致模糊。然而，在许多情况下，当使用手持相机拍摄时，模糊内核的主要贡献是由于相机抖动——由自然的手抖动引起的。

经典的去模糊数学公式作为反反卷积问题，寻求联合估计相机运动路径(或直接模糊算子)和潜在的清晰图像。虽然这可以产生良好的结果[1]，但它需要大量的计算资源，并且对高度精确的估计摄像机运动路径(或直接模糊算子)非常敏感。其他类型的方法依赖于检测尖锐的关键帧/区域和传播这些恢复模糊的。这类方法基于幸运帧或幸运区域的存在和检测，即，模糊图像的某些部分在其他帧中显得尖锐。我们的目标是插值那些幸运的帧/区域来替换那些不幸的模糊的帧/区域。这些方法利用了这样一个事实，即相机抖动起源于摄影师的手抖，本质上是随机的[4][6]。这意味着，在一般情况下，不同视频帧中的摄像机运动是独立的，导致不同的图像模糊和幸运帧的存在(可能不太模糊)。图2显示了一个例子。

在[7]中，我们提出了一种结合图像突发的算法，通过创建一个新的图像，其傅立叶频谱对每个频率取突发中傅立叶幅度最大的值。通过大气湍流[8]对天文成像也进行了类似的探索。由于脉冲信号中每幅图像的模糊程度不同，而这种模糊就像低通滤波器，因此重构图像从脉冲信号的每幅图像中选取衰减较小的部分。该算法在突发捕获静态场景方面取得了最先进的结果，明显快于基于反卷积思想或经典幸运成像技术[9]的算法。

在本文中，我们采用这些想法来恢复由相机抖动引起的模糊视频。在典型的情况下，与静态场景情况相反，由于存在多个移动物体和遮挡物的场景的动态特性，帧融合是非平凡的。这个问题不仅从视频质量的角度，而且对处理时间和内存消耗都有很强的要求。

我们没有在序列中引入模糊和摄像机运动的复杂模型(例如，需要不同的运动层、目标分割和精确的向前模型)，而是通过局部融合附近帧中呈现的一致信息来消除序列中每一帧的模糊。由于绝大多数消费者手持视频的目的是捕捉动态场景，这是极具挑战性的，特别是在低成本。具体来说，对于给定的帧(参考)及其附近的帧，该算法首先将这些帧一致地配准到参考上，然后局部应用加权傅立叶融合。一致的配准产生了一组新的等效帧，这些帧在局部具有与参考相同的频谱，直到模糊内核的影响。这使我们能够在不受伪影限制的情况下局部应用傅立叶融合方案[7]。一致性配准和局部傅里叶融合是该算法在计算资源方面非常有效的原因。这个过程产生的结果(1)没有图像模糊，(2)由于不同帧的聚集，噪声显著减少。

对多个真实视频序列进行了评价，结果表明，该方法能显著提高视频质量。与最先进的视频去模糊算法的详细比较表明，所提出的方法产生了类似或更好的结果，同时大大加快了速度，特别是由于避免了显式核计算和反卷积。

本文的其余部分组织如下。在第2节中，我们讨论了相关的工作，而在第3节中，我们解释了决定相机抖动视频去除的原理和相应的数学框架。在第4节中，我们提出并讨论了所提出的视频去模糊算法，而在第5节中，我们给出了真实数据的结果。我们最后在第6节结束时提供了最终结论、一些限制以及关于未来工作的一些想法。

II. RELATED WORK

对图像/视频去模糊的深入分析远远超出了当前工作的范围。如上所述，图像模糊可能有多种原因。例如，由物体快速运动引起的模糊与相机抖动模糊呈现出非常不同的特征。连续帧中随机性和独立性的假设，以及相机抖动的合理假设，对于场景中物体的运动(通常在几个帧中保持相同的运动)一般不成立。在这项工作中，我们专注于消除由于相机的随机运动模糊。因此，我们不会深入研究现有的大量文献，这些文献专注于消除物体运动模糊(见[10][12])，我们专注于一般的去模糊技术，目标(或很容易适应)相机抖动去除。

对于下面的内容，需要注意的是，在视频中减少相机抖动模糊的方法主要有两种。第一个算法将去模糊问题表述为一个逆问题(如反卷积)，而第二个算法则试图检测和传输(或聚合)来自所有帧的锐化信息，从而产生一个锐化序列。

Deblurring as an inverse problem. 近年来，出现了许多成功的图像恢复算法，它们试图盲目地恢复底层的锐化图像。这些工作大多结合了自然图像先验、模糊算子或相机路径的假设以及复杂的优化算法，同时解决了模糊核和锐化图像的逆估计问题，如[13][20]。

由于模糊核估计具有较小的空间支持，相对于同时估计核和清晰图像[21]、[22]，模糊核估计更容易解决。然而，即使在非盲反卷积中，在已知模糊核的情况下，由于模糊在频域引入了零点，从而阻碍了估计，因此该问题通常是不适定的。

视频去模糊与多图像盲反卷积关系密切，如[1]、[23]-[26]。Cai等人通过[24]实验表明，在多个观测条件下，图像在紧帧下的稀疏性是对恢复图像清晰度的良好测量。对多个输入模糊图像的访问提高了识别运动模糊核心的准确性，减少了问题的不确定性。rava - acha和Peleg[27]指出，当运动方向不同时，“两个运动模糊图像要好于一个”，当运动方向不同时。大多数多图像反卷积算法在每一对输入图像之间引入交叉模糊惩罚。这带来了一个问题，即图像数量的组合增加。Zhang et al.[1]提出了一种贝叶斯框架，将所有未知的模糊核与潜在的锐化图像在一个唯一的先验中耦合起来。虽然这个公式可以产生好看的清晰图像，但是它的优化速度非常慢，可能需要几分钟的时间才能使用附近的高清晰度(HD)帧进行过滤。此外，几乎所有的多图像反褶积算法都要求所有输入图像对齐，且内容相同(静态场景)。

Li等人提出对摄像机运动进行估计，并将视频模糊作为估计运动的函数进行明确建模。他们建立并优化了底层锐序列和运动参数之间的联合能量函数。Li et al.[28]提出估计摄像机运动，并将视频模糊作为被估计运动的函数显式建模。他们建立并优化了底层锐序列和运动参数之间的联合能量函数。

Kim和Lee[3]最近提出在一般的模糊视频中同时解决光流估计和帧恢复问题。这是通过最小化单个非凸能量函数同时估计光流和潜在锐帧来实现的。同时解决这两个问题需要更复杂的优化，因为连接所有模糊观测的正向模型更加复杂。

这些工作都是为了解决图像恢复的逆问题(如反褶积)。这种方法的主要缺点是，除了计算负担之外，如果正向模型不准确(或者估计不准确)，恢复的序列将包含强伪影(如振铃)。这在所有提到的算法中都经常可以看到。

Debluring by transferring sharp information.

天文学摄影中一个流行的技术，被称为“幸运成像”或“幸运曝光”，是取一系列成千上万的短曝光图像，然后选择并融合最锐的[31]。Fried[32]从数学上表明，如果捕捉到的视频足够长，那么高概率的情况下，一个人就能捕捉到鲜明的幸运曝光。天文幸运帧的选择方法是根据最亮的散斑[31]的亮度。另一些人提出从梯度的能量或图像Laplacian[33][36]来测量局部锐度。经典的幸运成像方法试图从静态视频(或多帧)生成单个图像，而不是恢复完整的视频。

为了去除视频中不稳定的运动帧，Matsushita et al.[37]提出通过插值的方法从附近帧中转移锐度图像像素，提高模糊帧的锐度。与幸运成像技术类似，这些传输类型的算法是基于观察到的，由于相机抖动的随机性，并非所有视频帧都是同样模糊的。为了实现图像的去模糊，他们提出了一种运动输入算法，该算法在静态图像区域和动态图像区域中增强了空间和时间的一致性。主要缺点是摄像机的运动是由纯同质性建模和估计的;因此，在许多实际场景中，该模型是不准确的，会导致可视化伪影和低于标准的图像质量。

Cho等人在[2]中也探索了类似的想法，他们提出用类似但更清晰的图像线性组合取代模糊的图像。模糊核的粗略估计用于检测附近帧中最相似的补丁。然后，将每个patch替换为相似patch的加权平均值。权重是补丁之间相似度的组合，幸运的是，对于检测到的可能更锐利的补丁，权重更高。虽然该算法得到的结果总体上是好的，但由于斑块的非局部平均，有时会使图像过于平滑。在结果部分，我们对该方法进行了详细的比较。

传统的幸运成像方法的一个普遍缺点是，它们只依赖于锐度度量，而没有利用相机抖动模糊在不同帧的不同方向上发生的事实。

Garrel等人提出了一种基于各傅立叶频率信号相对强度的天文图像选择方案。类似地，在[7]，[9]中，傅立叶脉冲累加(FBA)算法通过创建一个新的图像，其傅立叶频谱对每个频率取脉冲中傅立叶幅度最大的值来融合图像脉冲。这些程序可以更有效地利用每个模糊帧中包含的补充信息。

III. REMOVING BLUR IN HAND-HELD CAMERAS

使用手持摄像机拍摄的视频往往含有图像模糊，严重损害整体质量。典型的模糊源可以分为主要依赖场景的模糊源(如物体移动、景深)和依赖相机和相机运动的模糊源(相机抖动、自动对焦)。

由于相机抖动造成的图像模糊在视觉上非常令人不安。幸运的是，在许多情况下，这种模糊是暂时的、不稳定的，而且变化迅速。这意味着，一般来说，由于相机抖动造成的每一帧的模糊与附近帧的模糊是不同的。在这项工作中，我们提出了一种算法，利用这一现象，聚合来自附近帧的信息，以提高视频序列中每一帧的质量。该算法是在[7]、[8]中引入的傅立叶去模糊融合的基础上提出的。让我们指出，从静态场景多图像去模糊算法到动态视频中去除相机抖动模糊的算法，在保持简单和低复杂度的同时，具有极大的挑战性。这就是为什么，一般来说，多图像去模糊算法还没有(成功地)扩展到在真实动态视频中去除了相机抖动模糊。下面，我们简要描述这些方法背后的主要思想和数学形式主义。

The Weighted Fourier Accumulation Principle