ECCV2020 Flow-edge Guided Video Completion20论文翻译

最新推荐文章于 2023-08-01 11:47:18 发布

Laughing-q

最新推荐文章于 2023-08-01 11:47:18 发布

阅读量3.5k

点赞数

分类专栏：论文阅读文章标签：计算机视觉人工智能深度学习

本文链接：https://blog.csdn.net/q1u1ng/article/details/108541474

版权

ECCV2020 Flow-edge Guided Video Completion20论文翻译

光流边缘引导的视频补全算法
论文地址： Flow-edge Guided Video Completion20

在这里插入图片描述

摘要

我们提出了一个新的基于光流的视频修复算法。之前的光流修复算法通常无法保持运动边界的锐度。我们的方法首先提取并完成运动边缘，然后利用运动边缘来引导具有锐边的分段光滑流补全。现有的方法在相邻帧之间的局部光流连接之间传播色彩。然而，并不是视频中所有缺失的区域都可以用这种方法进行恢复，因为运动的边界形成了不可逾越的障碍。我们的方法通过相隔较远的帧之间的全局光流(non-local flow)连接减轻了这个问题，允许在运动边界上传播视频内容。我们在DAVIS数据集验证了我们的方法，视觉和定量结果都表明，我们的方法优于最先进的算法。

1.介绍

视频修复是用新合成的内容填充一个给定时空区域的任务。有着广泛的应用，包括修复(去除划痕)，视频编辑和特效(删除不需要的对象)，水印和logo的去除，和视频稳定化(在移除晃动后填充外部，而不是剪切)。新合成的内容应该无缝嵌入到视频中，这种变化也应该是尽可能难以察觉的。这是具有挑战性的，因为我们需要确保结果在时间上是一致的(不会闪烁)，并且涉及到动态摄像机运动以及视频中复杂的物体运动。
直到几年前，大多数方法使用基于块的合成技术[14,26,39]。这些方法通常比较慢并且合成新内容的能力也有限，因为他们只能重新混合视频中已有的块。最近的基于学习的技术实现了更合理的合成[5, 38]，但由于视频的内存要求很高，采用三维时空核的方法存在分辨率问题。迄今为止最成功的方法[14,42]是基于流光流的。它们共同合成色彩和光流，沿光流轨迹传播色彩以提高时间的连贯，这种方式减缓了内存问题并允许高分辨率输出。我们的方法也遵循这种普遍的方法。
基于光流的方法实现良好结果的关键在于准确的光流修复，特别的是沿物体边界合成锐化的光流边缘。然而，上述所提到的方法不能够合成锐化的光流边缘并且通常会产生过度平滑的结果。当移除平面背景前的整个对象时，这种方法仍然有效，但在一些复杂的情况下就不起作用了。比如说，现有的方法很难很好地完成部分可见的动态对象(图1b-c)。值得注意的是，这种情况在完成静态屏幕空间masks时非常普遍，比如说logo和水印。在我们的工作里，我们通过明确的合成光流边缘来提升光流的合成效果。我们然后使用合成的光流边缘来引导光流的合成，使得光流分段平滑，有着锐化的边缘 (图1d)。
以往基于光流的方法的另一个局限性是相邻帧之间的串联光流向量只能形成连续的时间约束。这阻止了对视频的多个部分进行约束和传播。比如说，考虑到行走的人的周期性的腿部运动的场景：这里，背景在两腿之间反复可见，但是横扫运动阻止了形成持续的光流轨迹来获得(并填充)这些区域。我们通过向一组non-local(时间距离)帧引入额外的光流约束缓解了这个问题。这就创造了跨越光流障碍的捷径，并将色彩传播到视频的更多部分。
最后，前面的基于光流的方法直接传播色彩值，然而在视频中，由于光线变化，阴影，镜头晕光，自动曝光和白平衡等效果，颜色往往会随着时间而微妙变化，这些效果会导致从不同帧传播的颜色组合在一起时出现明显可见的颜色接缝。我们的方法通过在Gradient-domain中操作来减少这个问题。
总的来说，我们的方法缓解了现存的基于光流的视频修复算法的局限性：

Flow edges光流边缘：通过显式地合成光流的边缘，我们获得了分段平滑光流的合成。
Non-local flow非局部光流：我们利用非局部光流处理不能通过传递光流处理的区域(例如，周期运动，如步行)。
Seamless blending无缝融合：我们通过操作Gradient-domain来避免在结果中出现明显的接缝。
Memory efficiency内存效率：我们的方法处理高达4K分辨率的视频，而其他方法失败，因为过度的GPU内存要求。

2.相关工作

图像修复： 目的是用合理合成的内容填充图像中缺失的区域。Example-based方法利用了自然图像中的冗余并且将图片块从已知区域转换到未知(缺失)区域[7, 9]。这些方法通过 patch-based基于块的合成[1,39]或通过用graph cuts图像切割来解决标记问题[12,32]找到内容转换的联系。除了只使用逐字复制的patch之外，还有几种方法通过几何和光度变换增强patch搜索来提高补全质量[8,13,15,24]。Learning-based方法在图像修复已经展现了有前途的结果，主要是他们能够合成一些原始图像中没有的新内容 [16, 29, 43, 45]。一些改进的网络设计被提出来处理 free-form holes[23,40,44]，并利用预测的结构(如边缘)来引导内容 [25, 33, 41]，我们的工作利用一个pretrained 图像修复模型 [45]来填充没有通过时间传播填充的像素。
视频修复： 继承了图像补全问题带来的挑战，并由于时间维度的增加引入了新的挑战。下面，我们只讨论与我们的工作最相关的视频修复方法。我们请读者参阅调查[17]以获得该领域的完整地图。
Patch-based合成技术以3D(时空)patches作为合成单元应用于视频补全修复[26,39]。然而，用 3D patches处理动态视频(用手持相机拍摄)很有挑战性，因为它们不能适应摄像机运动引起的变形。因为这个原因，一些方法选择2D空间patches来填充空洞并且使用 homography-based registration增强时间一致性[10，或显式的光流约束[14,34,36]。特别的是，Huang et al. [14]提出了一种在光流估计和flow-guided patch-based的合成之间交替的优化公式。虽然已有令人印象深刻的结果，但该方法的计算成本较高。近期研究[3,28]展示速度也可以有大幅提升，通过 (1)将光流合成步骤与颜色合成步骤解耦和 (2)移除patch-based合成(即仅依赖于基于光流的颜色传播)。这些 flow-based方法，不能够得到缺失区域的锐化光流边缘并且很难合成动态对象边界。我们的方法专注于克服 flow-based方法的局限性。
由于learning-based的视觉合成方法的成功，最近的努力集中在开发基于cnn的视频合成方法上。一些方法采用3D CNN结构来提取特征并且学习修复缺失的内容[5, 38]。然而，由于内存的限制，3D CNNs的使用极大地限制了视频处理的空间(和时间)分辨率。为了缓解这个问题， [20, 22, 27]中的方法抽取少量邻近帧作为参考。然而，这些方法由于使用了固定的时间窗，不能传输时间上的遥远的内容。受flow-based方法[3, 14, 28]的启发， Xu等人[42]明确地预测和完善了稠密光流场，以便于传播潜在的较远帧的内容来填补缺失的区域。我们的方法建立在floow-based的视频合成公式并且做了一些技术贡献来大幅提高合成的视觉质量，包括合成保持边缘(edge-preserving)的光流场，利用非局部光流和Gradient-domain处理来获得无缝的结果。
Gradient-domain处理： 技术是各种应用中不可缺少的工具，包括图像编辑 [2,31]，基于图像的渲染 [21]，混合缝合全景[37]，和在视频中无缝插入运动目标[6]。在视频修复的情况下，泊松融合可以作为一个后处理操作来将合成的内容和原始图片进行融合并且隐藏沿孔边界的接缝。但是，这种方法是不够的，因为从多个帧传播的内容可能在孔内引入可见的接缝，不能通过泊松融合去除。我们的方法通过在flow-based传播过程中传播梯度(而不是色彩)来缓解这个问题。

3.方法

在这里插入图片描述

3.1 综述

我们的视频补全方法的输入是一个彩色视频和一个显示需要合成的部分的二值掩模视频 (Figure 2a)。我们将掩码像素当作缺失的区域，其他的区域称为已知区域。我们的方法由以下三个主要步骤组成：

Flow completion光流补全：我们首先计算相邻帧以及一组非相邻 (“non-local”)帧的前向光流和反向光流，然后补全这些光流场中缺失的区域 (Section 3.2)。由于边缘通常是光流映射中最显著的特征，我们首先提取并补全它们。然后，我们使用补全的边缘，以产生分段平滑光流的完成补全 (Figure 2b)。
Temporal propagation：接下来，我们沿着光流轨迹为每个缺失的像素传播一组候选像素 (Section 3.3)。通过串联正向光流向