【AI论文】Video Depth Anything: 超长视频的一致深度估计

摘要:Depth Anything在单目深度估计方面取得了显著成功,展现出强大的泛化能力。然而,它在处理视频时存在时间不一致性问题,这限制了其实际应用。为解决这一问题,人们提出了各种方法,如利用视频生成模型或引入光流和相机姿态等先验信息。尽管如此,这些方法仅适用于短视频(<10秒),并且需要在质量和计算效率之间做出权衡。我们提出了Video Depth Anything,旨在实现超长视频(超过几分钟)的高质量、一致深度估计,同时不牺牲效率。我们的模型基于Depth Anything V2,并将其头部替换为一个高效的时空头部。我们通过约束时间深度梯度,设计了一种简单而有效的时间一致性损失,消除了对额外几何先验的需求。该模型在视频深度和未标注图像的联合数据集上进行训练,训练方式与Depth Anything V2相似。此外,我们还开发了一种新颖的基于关键帧的策略,用于长视频的推理。实验表明,我们的模型可以应用于任意长度的视频,而不牺牲质量、一致性或泛化能力。在多个视频基准测试上的全面评估表明,我们的方法在零样本视频深度估计方面达到了新的最先进水平。我们提供了不同规模的模型以支持各种场景,其中最小的模型能够以30帧/秒的速度实现实时性能。Huggingface链接:Paper page,论文链接:2501.12375

一、引言与背景

随着计算机视觉和深度学习技术的飞速发展,单目深度估计(MDE)领域取得了显著进展。Depth Anything作为该领域的代表性方法,以其强大的泛化能力和在多种场景下生成丰富细节的深度预测而闻名。然而,Depth Anything等模型主要设计为针对静态图像进行深度估计,在处理视频时存在时间不一致性问题,即深度预测在连续帧之间会出现闪烁或运动模糊现象。这一问题严重限制了这些模型在机器人导航、增强现实(AR)和高级视频编辑等需要时间一致性深度信息的实际应用中的表现。

为解决这一问题,研究者们提出了多种方法。早期的方法通常依赖于测试时优化,通过复杂的几何约束来调整预训练的单目深度模型。然而,这些方法在推理时计算开销巨大,不适合实际应用。近年来,研究重点逐渐转向前馈模型,这些方法大致可分为两类:一类是设计即插即用的模块,通过结合时间一致性来增强单目深度模型的预测;另一类是利用预训练的视频扩散模型,将视频转换为深度图。然而,这两类方法都存在局限性。前者高度依赖于光流或相机姿态等先验信息,容易受到相应误差的影响;后者虽然能生成精细的细节,但计算效率低下,无法利用现有的深度基础模型,且只能处理有限长度的视频。

二、Video Depth Anything模型概述

2.1 模型架构

2.1.1 Depth Anything V2编码器

为了克服上述挑战,本文提出了Video Depth Anything模型,该模型基于Depth Anything V2,并对其进行改进以适应长视频深度估计的需求。Depth Anything V2作为当前最先进的单目深度估计模型,以其高精度和泛化能力著称。我们保留了其编码器部分,并在训练过程中保持编码器冻结,以减少训练成本并保留其已学习到的特征。

为了处理视频数据,我们将视频片段的时间维度折叠到批量维度中,使编码器能够同时处理视频帧和图像输入。编码器输出一系列中间特征图,这些特征图随后被送入时空头部进行处理。

2.1.2 时空头部

时空头部(STH)是Video Depth Anything模型的核心组件,它基于DPT头部进行改进,通过插入时间层来捕获时间信息。时间层由多头自注意力模型和前馈网络组成,专门沿时间维度对特征图进行自注意力计算,以促进帧间特征交互。为了捕获帧间的时间位置关系,我们使用时间位置嵌入来编码视频序列中的时间位置信息。

时空头部从编码器输出的特征图中均匀采样四个特征图作为输入,并通过重新组装层和融合层逐步融合这些特征图,最终生成高分辨率的特征图。这些特征图随后被送入输出层以生成深度图。为了减少额外的计算负担,我们仅在特征分辨率较低的位置插入时间层。

2.2 时间一致性损失

为了解决视频深度估计中的时间不一致性问题,我们设计了一种简单而有效的时间一致性损失函数——时间梯度匹配损失(TGM)。与传统的基于光流的损失函数不同,TGM不依赖于光流来计算帧间对应点的深度一致性。相反,它假设相邻预测帧中对应点的深度变化应与地面真实深度中的变化一致。

具体来说,TGM损失计算相邻帧中相同坐标位置处深度的绝对差异,并将其与地面真实深度中的差异进行比较。我们仅在地面真实深度变化小于0.05的区域计算TGM损失,以避免边缘、动态物体等因素引起的深度突变对训练过程的影响。

除了TGM损失外,我们还使用了尺度不变和偏移不变损失(SSI)来监督单帧图像。总损失函数由TGM损失和SSI损失的加权和组成,以平衡单帧图像的空间结构和视频帧间的时间一致性。

2.3 长视频推理策略

为了处理任意长度的视频,我们开发了一种基于关键帧的推理策略。在推理过程中,我们将视频分割成多个片段,并为每个片段构建一个新的推理视频片段。这个新的视频片段由未来帧、重叠帧和关键帧组成。关键帧是从前一个视频片段中按一定间隔采样得到的,用于为当前推理提供尺度和偏移信息。

为了避免相邻窗口之间的深度闪烁现象,我们使用重叠帧来更新深度预测。具体来说,我们通过线性插值的方式在重叠帧之间逐渐过渡深度预测结果。这种推理策略不仅减少了计算负担,还显著提高了长视频深度估计的一致性和准确性。

三、实验与评估

3.1 实验设置

3.1.1 数据集

为了全面评估Video Depth Anything模型的性能,我们在五个视频基准测试集上进行了实验。这些数据集涵盖了室内、室外和野外等多种场景,每个视频最多评估500帧,远超以往研究中的110帧限制。此外,我们还在五个图像基准测试集上评估了模型在静态图像深度估计方面的性能。

3.1.2 评估指标

我们使用几何精度和时间稳定性指标来评估视频深度模型的性能。几何精度通过绝对相对误差(AbsRel)和δ1指标来衡量,时间稳定性则通过时间对齐误差(TAE)来评估。在评估过程中,我们首先通过均匀尺度和偏移来对齐预测深度图和地面真实深度图。

3.2 实验结果

3.2.1 零样本视频深度估计

在零样本视频深度估计任务中,我们的Video Depth Anything模型在所有长视频数据集上均取得了最先进的性能,在几何精度和时间稳定性指标上均优于其他基线方法。特别是,在KITTI、Scannet和Bonn数据集上,我们的模型在几何精度指标δ1上领先其他领先方法约10%,尽管它使用的视频数据远少于DepthCrafter(超过1000万帧)和DepthAnyVideo(600万帧)。

对于短视频数据集Sintel,由于我们的训练集中缺少与Sintel帧焦距相似的电影数据,我们的模型在准确性上略逊于DepthCrafter。然而,在长视频上,我们的模型仍然表现出色,其紧凑模型VDA-S在几何精度上优于基于扩散的方法,同时保持了较低的延迟。

3.2.2 零样本图像深度估计

在零样本图像深度估计任务中,我们的模型在大多数数据集上实现了与Depth Anything V2相当甚至更好的深度指标。这表明我们的模型在保持基础模型几何精度的同时,还确保了视频稳定性。

3.2.3 长视频定量结果

我们选择了Bonn、Scannet和NYUv2数据集中的10个场景,每个场景包含500帧视频帧进行评估。实验结果表明,随着视频帧数的增加,我们的模型在几何精度和时间稳定性指标上均表现出最小的性能下降。特别是在Scannet和NYUv2数据集上,我们的模型在超过500帧的视频上仍然保持出色的性能。

3.2.4 定性结果

在定性比较中,我们的模型在长视频和短视频上均表现出色。与DepthCrafter和Depth Anything V2相比,我们的模型生成的深度图在几何精度和时间一致性方面均更接近地面真实深度图。特别是在处理复杂环境和动态物体时,我们的模型能够生成更准确和一致的深度预测结果。

3.3 消融研究

3.3.1 时间损失函数

消融研究结果表明,我们提出的时间梯度匹配损失函数在几何精度和时间稳定性指标上均优于其他时间损失函数。特别是与基于光流的损失函数相比,TGM损失不仅纠正了其误差,还消除了对光流的依赖。

3.3.2 推理策略

在推理策略方面,我们的基于关键帧的推理策略(OI+KR)在长时间视频推理中表现出色,有效减少了累积尺度漂移问题。相比之下,仅使用重叠对齐(OA)的方法在长时间推理中会出现尺度漂移现象。

3.3.3 窗口大小

实验结果表明,窗口大小为32帧的模型在几何精度和时间一致性方面均优于窗口大小为16帧的模型。然而,进一步增加窗口大小并不会带来额外的性能提升。因此,我们选择32帧作为最终模型的窗口大小。

3.3.4 训练策略

通过结合视频数据和未标注图像进行训练,我们的模型在单帧深度估计和视频深度估计方面均取得了显著提升。这表明使用未标注图像进行蒸馏训练是一种有效的策略,可以进一步提高模型的性能。

四、应用与未来工作

4.1 应用场景

Video Depth Anything模型在多个应用场景中具有广阔的应用前景。例如,在机器人导航中,该模型可以为机器人提供准确的时间一致性深度信息,帮助其更好地理解和感知周围环境;在增强现实中,该模型可以生成高质量的深度图,为虚拟物体的插入和交互提供有力支持;在高级视频编辑中,该模型可以用于视频深度填充和深度图像融合等任务。

4.2 未来工作

尽管Video Depth Anything模型在超长视频深度估计方面取得了显著成果,但仍存在一些挑战和未来工作方向。例如,当前的模型训练依赖于公开可用的视频深度数据集,这些数据集的数量和质量可能限制了模型的性能。未来,我们可以通过收集更多高质量的视频深度数据来进一步提高模型的性能。此外,我们还可以探索解锁骨干网络进行微调的可能性,以进一步提高模型的泛化能力和准确性。同时,针对流视频处理的挑战也是未来研究的一个重要方向。

五、总结

本文提出了Video Depth Anything模型,旨在实现超长视频的高质量、一致深度估计。通过设计高效的时空头部和时间梯度匹配损失函数,我们的模型能够在不牺牲计算效率的情况下生成时间一致的深度预测结果。在多个视频基准测试集上的实验结果表明,我们的模型在几何精度、时间稳定性和计算效率方面均达到了新的最先进水平。此外,我们还提供了不同规模的模型以支持各种场景下的应用需求。未来,我们将继续探索改进模型性能和扩展应用场景的可能性。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值