Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data论文解读

最新推荐文章于 2025-01-26 01:00:00 发布

tangjunjun-owen

最新推荐文章于 2025-01-26 01:00:00 发布

阅读量1.3k

点赞数 18

分类专栏： paper解读文章标签：深度学习人工智能深度估计单目3D Depth anything

本文链接：https://blog.csdn.net/weixin_38252409/article/details/135961901

版权

paper解读专栏收录该内容

23 篇文章

订阅专栏

前言

随着分割一切的SAM模型基准，紧接着tag一切的RAM模型基准，又随着区域token一切的TAM模型基准，迎来了深度估计一切的DAM模型。不错，本文介绍Depth Anything论文，改论文是单目深度估计论文。这项工作提出了 Depth Anything，这是一种用于鲁棒单目深度估计的高度实用的解决方案。在不追求新颖的技术模块的情况下，我们的目标是建立一个简单而强大的基础模型，处理任何情况下的任何图像。

一、摘要

这项工作提出了 Depth Anything，这是一种用于鲁棒单目深度估计的高度实用的解决方案。在不追求新颖的技术模块的情况下，我们的目标是建立一个简单而强大的基础模型，处理任何情况下的任何图像。为此，我们通过设计数据引擎来自动注释大规模未标记数据（~62M）来扩展数据集，这显著扩大了数据覆盖范围，从而能够减少泛化误差。我们研究了两种简单而有效的策略，使数据扩展前景光明。首先，利用数据增强工具迫使模型主动寻求额外的视觉知识并获得稳健的表示。其次，开发了辅监督来强制模型从预训练的编码器继承丰富的语义先验。我们广泛评估其一般能力，包括六个公共数据集和随机捕获的照片。它表现出了令人印象深刻的泛化能力。此外，通过使用 NYUv2 和 KITTI 的度量深度信息对其进行微调，刷新了新的 SOTA。我们更好的深度模型也会产生更好的深度调节 ControlNet。

在这里插入图片描述

二、模型效果

图一，我们模型在未学习场景展现了令人深刻的通用能力，左边2列是coco数据，中间2列是SA-1B数据，右边2列是我们随机拍的。我们模型在昏暗环境、复杂环境、雾天环境都是稳定的。
在这里插入图片描述

三、引言

1、现状

现有视觉语言模型结合是一场彻底革命，很惊讶如此表现。然而深度估计是自动驾驶、机器人等的基准问题，却没有一个牛逼模型，尽管有些泛化如MiDaS模型，但数据规模不够。

2、模型价值

作者说我们想构建一个单目深度估计的基准模型，能对任意图像生成高质量深度信息。

3、无深度估计模型缘由

原始构建深度数据集需要借助激光雷达、深度相机等方式，成本高又耗时。

4、无标签数据优势

构建伪标签深度数据集，且单目数据还有以下优点：
（i）（获取简单且便宜）单目图像几乎无处不在，因此易于收集，无需专门的设备。
（ii）（多样性）单目图像可以覆盖更广泛的场景，这对模型的泛化能力和可扩展性至关重要。
（iii）（易于注释）简单地使用预训练的MDE模型为未标记的图像分配深度标签，这只需要前馈推理步骤。更高效的是，这还产生了比激光雷达[18]更密集的深度图，并省略了计算密集的立体匹配过程。