【从单张图像解锁深度信息】Depth Anything一种用于鲁棒单目深度估计的高度实用的解决方案

在这里插入图片描述

Depth Anything是一种用于鲁棒单目深度估计的高度实用的解决方案。 在不追求新颖的技术模块的情况下,我们的目标是建立一个简单而强大的基础模型,处理任何情况下的任何图像。 为此,我们通过设计数据引擎来收集并自动注释大规模未标记数据(~62M)来扩展数据集,这显着扩大了数据覆盖范围,从而能够减少泛化误差。 我们研究了两种简单而有效的策略,使数据扩展前景光明。 首先,利用数据增强工具创建更具挑战性的优化目标。 它迫使模型主动寻求额外的视觉知识并获得稳健的表示。 其次,开发了辅助监督来强制模型从预训练的编码器继承丰富的语义先验。 我们广泛评估其零镜头能力,包括六个公共数据集和随机捕获的照片。 它表现出了令人印象深刻的泛化能力。 此外,通过使用 NYUv2 和 KITTI 的度量深度信息对其进行微调,设置了新的 SOTA。 我们更好的深度模型也会产生更好的深度调节 ControlNet。 我们的模型在此 https URL 发布。

论文:https://arxiv.org/abs/2401.10891
这项工作介绍了Depth Anything,一种在1.5百万标记图像和62百万+未标记图像的组合上进行训练,实现强大单目深度估计的实际解决方案。它成为InstantID和InvokeAI的默认深度处理器,并支持视频深度可视化。Depth Anything还提供了基于ControlNet的更精确合成,以及可用于下游高级场景理解的编码器。性能方面,与MiDaS v3.1 BEiTL-512模型相比,Depth Anything表现更好。它提供了三个规模不同的预训练模型,可用于稳健的相对深度估计。此外,该项目提供了

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

源代码杀手

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值