【从单张图像解锁深度信息】Depth Anything一种用于鲁棒单目深度估计的高度实用的解决方案

最新推荐文章于 2024-07-04 16:27:20 发布

源代码杀手

最新推荐文章于 2024-07-04 16:27:20 发布

阅读量518

点赞数

分类专栏：算法核心基础与AI模型设计文章标签：人工智能计算机视觉

本文链接：https://blog.csdn.net/weixin_41194129/article/details/136026356

版权

算法核心基础与AI模型设计专栏收录该内容

49 篇文章 14 订阅 ¥39.90 ¥99.00

订阅专栏

超级会员免费看

在这里插入图片描述

Depth Anything是一种用于鲁棒单目深度估计的高度实用的解决方案。在不追求新颖的技术模块的情况下，我们的目标是建立一个简单而强大的基础模型，处理任何情况下的任何图像。为此，我们通过设计数据引擎来收集并自动注释大规模未标记数据（~62M）来扩展数据集，这显着扩大了数据覆盖范围，从而能够减少泛化误差。我们研究了两种简单而有效的策略，使数据扩展前景光明。首先，利用数据增强工具创建更具挑战性的优化目标。它迫使模型主动寻求额外的视觉知识并获得稳健的表示。其次，开发了辅助监督来强制模型从预训练的编码器继承丰富的语义先验。我们广泛评估其零镜头能力，包括六个公共数据集和随机捕获的照片。它表现出了令人印象深刻的泛化能力。此外，通过使用 NYUv2 和 KITTI 的度量深度信息对其进行微调，设置了新的 SOTA。我们更好的深度模型也会产生更好的深度调节 ControlNet。我们的模型在此 https URL 发布。

论文：https://arxiv.org/abs/2401.10891
这项工作介绍了Depth Anything，一种在1.5百万标记图像和62百万+未标记图像的组合上进行训练，实现强大单目深度估计的实际解决方案。它成为InstantID和InvokeAI的默认深度处理器，并支持视频深度可视化。Depth Anything还提供了基于ControlNet的更精确合成，以及可用于下游高级场景理解的编码器。性能方面，与MiDaS v3.1 BEiTL-512模型相比，Depth Anything表现更好。它提供了三个规模不同的预训练模型，可用于稳健的相对深度估计。此外，该项目提供了

了解本专栏

超级会员免费看

源代码杀手

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
【从单张图像解锁深度信息】Depth Anything一种用于鲁棒单目深度估计的高度实用的解决方案

在不追求新颖的技术模块的情况下，我们的目标是建立一个简单而强大的基础模型，处理任何情况下的任何图像。此外，通过使用 NYUv2 和 KITTI 的度量深度信息对其进行微调，设置了新的 SOTA。这项工作介绍了Depth Anything，一种在1.5百万标记图像和62百万+未标记图像的组合上进行训练，实现强大单目深度估计的实际解决方案。参考:https://zhuanlan.zhihu.com/p/681020500。论文：https://arxiv.org/abs/2401.10891。
复制链接

扫一扫