视频修复算法结合了基于流的像素传播与基于Transformer的生成方法,利用光流信息和相邻帧的信息来恢复纹理和对象,同时通过视觉Transformer完成被遮挡区域的修复。然而,这些方法在处理大范围遮挡时常常会遇到模糊和时序不一致的问题,这凸显了增强生成能力模型的重要性。近期,由于扩散模型在图像和视频生成方面展现出了卓越的性能,已成为一种重要的技术。在本文中,我们介绍了DiffuEraser,这是一种基于稳定扩散的视频修复模型,旨在以更丰富的细节和更连贯的结构填充被遮挡区域。我们融入了先验信息以提供初始化和弱条件约束,这有助于减轻噪声伪影并抑制幻觉现象。此外,为了提高长序列推理过程中的时序一致性,我们扩展了先验模型和DiffuEraser的时序感受野,并利用视频扩散模型的时序平滑特性进一步增强了一致性。实验结果表明,我们提出的方法在内容完整性和时序一致性方面均优于当前最先进的技术,同时保持了可接受的效率。
图1. 所提模型DiffuEraser与Propainter的性能比较。
(a)纹理质量:与基于Transformer的Propainter相比,DiffuEraser生成的纹理更加详细和精细。(b)时序一致性:与Propainter相比,DiffuEraser在修复内容中展现出了更优的时序一致性。
引言
视频修复旨在用既合理又时序一致的内容来填补被遮挡的区域。以往的视频修复算法主要依赖于两种机制:
1)基于流的像素传播方法,该方法利用光流,通过借鉴相邻帧的信息来恢复纹理细节和对象;以及
2)基于Transformer的视频修复方法,该方法在完善对象的结构方面表现出色[26]。
当前的主流算法通常将这两种方法相结合,包含三个模块或阶段:
1)流完成,
2)特征传播,以及
3)内容生成。
该解决方案将被遮挡的像素分为两类:
1)已知像素,这些像素在某些被遮挡的帧中出现过,并可以通过流完成和特征传播模块传播到其他帧,确保修复后的内容与