经典文献阅读之--DMD(效果媲美双目与RGBD的单目深度估计)

0. 简介
深度估计任务是计算机视觉领域中的一个重要任务,旨在从单个或多个图像中推断出场景中物体的距离或深度信息。深度估计任务对于理解场景的三维结构、实现虚拟现实、增强现实、自动驾驶以及机器人导航等应用都具有重要意义。常用的深度估计算法包括:单目深度估计、双目深度估计、RGBD深度估计等。由于当前的单目深度估计算法效果不理想、而RGBD深度估计不仅需要依赖于RGBD相机,而且成本和功耗比较高,因而双目深度估计是主要的落地方案。《Zero-Shot Metric Depth with a Field-of-View Conditioned Diffusion Model》一文将给大家介绍一个单目深度估计算法,它可以极大的提升之前的单目深度估计算法的性能,效果比肩双目和RGBD深度估计算法!相关的网页主页可以在:https://diffusion-vision.github.io/dmd/这里看到。

1. 主要贡献
在本文中,我们提倡使用去噪扩散模型进行零次测量深度估计,并通过几项关键创新来获得最佳性能。特别是,在训练期间使用视场(FOV)增强来提高对不同相机内参的泛化能力,而在训练和推断中使用 FOV 调节有助于解决内在尺度歧义,从而进一步提高性能。以对数域表示深度能更平衡地分配模型容量,以适应室内和室外场景,改善室内性能。最后,我们发现在神经网络去噪中使用 v-参数化大大提高了推断速度。由此产生的模型,被称为 DMD(用于测量深度的扩散),表现优于最近提出的测量深度模型 ZoeDepth [5]。特别是,DMD 在所有八个 [5] 中提到的分布外数据集上的相对深度误差远低于 ZoeDepth,前提是在相同数据上进行微调。扩展训练数据集将进一步提高性能(见图 1)。

总结来说,我们做出了以下贡献:

  1. 我们提出了 DMD,这是一种简单而有效的方法,用于零次测量一般场景中的深度。
  2. 我们提议通过合成增强 FOV 来改善泛化能力,通过 FOV 调节来解决深度尺度歧义,并通过以对数尺度表示深度来更好地利用模型的表征能力。
  3. DMD 在零次测量深度方面确立了最新的技术水平,与 ZoeDepth 相比,在室内和室外数据集上的相对误差分别降低了 25% 和 33%,同时由于使用 v-参数化扩散,具有高效性。

2. 测量深度的扩散模型(DMD)
在接下来的部分,我们将描述 DMD(用于测量深度的扩散)及其解决这些问题的设计决策。特别是,我们将单目深度估计视为使用去噪扩散的生成性 RGB 到深度的转换任务。为此,我们在传统扩散模型和训练程序中引入了几项技术创新,以适应零次测量的度量深度。

3. 扩散模型
扩散模型是概率模型,假设有一个前向过程逐渐将目标分布转换为易处理的噪声分布。训练有素的神经去噪器被训练来逆转这一过程,迭代地将噪声样本转换为来自目标分布的样本。它们在图像和视频方面表现出了惊人的有效性,并且最近开始用于像分割、跟踪、光流和深度估计这样的密集视觉任务。它们吸引人的原因在于,在回归任务上表现强劲,能够捕获后验不确定性,而不需要特定任务的架构、损失函数和训练程序。

点击经典文献阅读之--DMD(效果媲美双目与RGBD的单目深度估计) - 古月居 可查看全文

  • 12
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值