本文是深度学习相关文章,针对《Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data》的翻译。
摘要
这项工作提出了Depth Anything,这是一种用于鲁棒单目深度估计的高度实用的解决方案。在不追求新颖技术模块的情况下,我们的目标是建立一个简单而强大的基础模型,在任何情况下处理任何图像。为此,我们通过设计一个数据引擎来收集和自动注释大规模未标记数据(~62M),从而大大扩大了数据覆盖范围,从而能够减少泛化误差,从而扩大数据集的规模。我们研究了两种简单而有效的策略,这两种策略使数据扩展更有希望。首先,通过利用数据扩充工具创建了一个更具挑战性的优化目标。它迫使模型积极寻求额外的视觉知识并获得稳健的表示。其次,开发了一种辅助监督,以强制该模型从预训练的编码器继承丰富的语义先验。我们广泛评估了它的零样本能力,包括六个公共数据集和随机拍摄的照片。它展示了令人印象深刻的泛化能力(图1)。此外,通过利用来自NYUv2和KITTI的度量深度信息对其进行微调,设置新的SOTA。我们更好的深度模型也产生了更好的深度条件ControlNet。我们的模型在这里发布。
1 引言
2 相关工作
3 Depth Anything
4 实验
5 结论
在这项工作中,我们提出了Depth Anything,这是一种非常实用的鲁棒单目深度估计解决方案。与现有技术不同,我们特别强调了廉价和多样化的未标记图像的价值。我们设计了两种简单但高效的策略来充分利用它们的价值:1)在学习未标记图像时提出更具挑战性的优化目标,以及2)从预训练的模型中保留丰富的语义先验。因此,我们的Depth Anything模型表现出出色的零样本深度估计能力,也可以作为下游度量深度估计和语义分割任务的一个很有前途的初始化。