Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data论文解读


前言

随着分割一切的SAM模型基准,紧接着tag一切的RAM模型基准,又随着区域token一切的TAM模型基准,迎来了深度估计一切的DAM模型。不错,本文介绍Depth Anything论文,改论文是单目深度估计论文。这项工作提出了 Depth Anything,这是一种用于鲁棒单目深度估计的高度实用的解决方案。 在不追求新颖的技术模块的情况下,我们的目标是建立一个简单而强大的基础模型,处理任何情况下的任何图像。


一、摘要

这项工作提出了 Depth Anything,这是一种用于鲁棒单目深度估计的高度实用的解决方案。 在不追求新颖的技术模块的情况下,我们的目标是建立一个简单而强大的基础模型,处理任何情况下的任何图像。 为此,我们通过设计数据引擎来自动注释大规模未标记数据(~62M)来扩展数据集,这显著扩大了数据覆盖范围,从而能够减少泛化误差。 我们研究了两种简单而有效的策略,使数据扩展前景光明。 首先,利用数据增强工具迫使模型主动寻求额外的视觉知识并获得稳健的表示。 其次,开发了辅监督来强制模型从预训练的编码器继承丰富的语义先验。 我们广泛评估其一般能力,包括六个公共数据集和随机捕获的照片。 它表现出了令人印象深刻的泛化能力。 此外,通过使用 NYUv2 和 KITTI 的度量深度信息对其进行微调,刷新了新的 SOTA。 我们更好的深度模型也会产生更好的深度调节 ControlNet。

在这里插入图片描述

二、模型效果

图一,我们模型在未学习场景展现了令人深刻的通用能力,左边2列是coco数据,中间2列是SA-1B数据,右边2列是我们随机拍的。我们模型在昏暗环境、复杂环境、雾天环境都是稳定的。
在这里插入图片描述

三、引言

1、现状

现有视觉语言模型结合是一场彻底革命,很惊讶如此表现。然而深度估计是自动驾驶、机器人等的基准问题,却没有一个牛逼模型,尽管有些泛化如MiDaS模型,但数据规模不够。

2、模型价值

作者说我们想构建一个单目深度估计的基准模型,能对任意图像生成高质量深度信息。

3、无深度估计模型缘由

原始构建深度数据集需要借助激光雷达、深度相机等方式,成本高又耗时。

4、无标签数据优势

构建伪标签深度数据集,且单目数据还有以下优点:
(i)(获取简单且便宜)单目图像几乎无处不在,因此易于收集,无需专门的设备。
(ii)(多样性)单目图像可以覆盖更广泛的场景,这对模型的泛化能力和可扩展性至关重要。
(iii)(易于注释)简单地使用预训练的MDE模型为未标记的图像分配深度标签,这只需要前馈推理步骤。更高效的是,这还产生了比激光雷达[18]更密集的深度图,并省略了计算密集的立体匹配过程。

5、解决数据方法

数据引擎-data engine:很朴素。在6个有深度标签的开源数据训练一个MDE模型,在预测收集的多样大规模数据,即可获得伪标签。
在这里插入图片描述

6、模型方法

模型方法:作者天真的直接让伪标签与gt标签训练,然而失败了!!! 还是挺难的!
作者分析:生成伪标签在教自己是受限制的。

提出学生模型:作者不放弃,又提出了学生模型,当模型学习伪标签时候,再给模型搞点更困难小动作,迫使模型学习视觉知识,实现未见场景泛化能力。

在这里插入图片描述

7、加语义辅助

作者自证:有研究表明单目模型借助语义辅助,有利于模型效果。
作者推断:然而作者却失败了,作者想解码图像到离散类别空间是严格的loss导致无效。
作者方法:发现语义表达厉害的DINOV2模型,直接使用特征校准loss维持丰富语义先验,同时能增强MDE能力。

注:作者使用RAM+GroundingDINO+HQ-SAM方式增加语义也失败了,最后采用dinov2.

附:论文额外说明
在这里插入图片描述

四、贡献

1、构建大规模伪标签数据。通过使用来自六个公共数据集的1.5M带标签图像,采用与MiDaS相似的深度值变换和归一化方法,采用仿射不变损失进行多数据集联合训练,构建了一个教师模型T,以此模型构建图像深度标签。

2、联合训练有标签与无标签数据模型方法。替代了直接学习无标签数据图像,增加优化目标难度迫使提取更多知识,实际为扰动方法。

3、语义辅助感知。引入了辅助语义感知DINOv2模型在语义相关任务中的优秀性能,通过辅助特征对齐损失将其强大的语义能力转移到深度模型中。

4、一套组合展现了模型优秀泛化能力。

在这里插入图片描述

五、模型结构

1、模型结构框架

论文说了使用有标签数据学习一个教师模型,使用教师模型预测伪标签深度信息,使用dinov2的编码与学生模型编码进行loss计算,数据增强使用简单颜色扰动与cutmix方式,2个解码头分别做监督loss计算。如下图:
在这里插入图片描述

图2,我们的pipeline。实线是图像有标签流,虚线是图像无标签。我们特别强调大规模无标签图像值。S表示增强扰动。为了在深度评估模型添加丰富语义先验,我们在在线学生模型与冻结能感知语义能力编码器增加一个辅助对比。

2、模型框架解读

实际是训练一个学生模型,教师模型仅仅作为深度伪标签生成,手工标签为真实标签,分别给伪标签与真实标签做loss,也在学生模型encode与dinov2模型encode做loss(理解类似特征蒸馏),并使用扰动增加模型难度,整体介绍如下图:

在这里插入图片描述

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

tangjunjun-owen

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值