经典文献阅读之--DMD(效果媲美双目与RGBD的单目深度估计)

最新推荐文章于 2024-08-20 20:31:11 发布

古-月

最新推荐文章于 2024-08-20 20:31:11 发布

阅读量704

点赞数 12

文章标签：论文阅读

本文链接：https://blog.csdn.net/hcx25909/article/details/138161583

版权

0. 简介
深度估计任务是计算机视觉领域中的一个重要任务，旨在从单个或多个图像中推断出场景中物体的距离或深度信息。深度估计任务对于理解场景的三维结构、实现虚拟现实、增强现实、自动驾驶以及机器人导航等应用都具有重要意义。常用的深度估计算法包括：单目深度估计、双目深度估计、RGBD深度估计等。由于当前的单目深度估计算法效果不理想、而RGBD深度估计不仅需要依赖于RGBD相机，而且成本和功耗比较高，因而双目深度估计是主要的落地方案。《Zero-Shot Metric Depth with a Field-of-View Conditioned Diffusion Model》一文将给大家介绍一个单目深度估计算法，它可以极大的提升之前的单目深度估计算法的性能，效果比肩双目和RGBD深度估计算法！相关的网页主页可以在：https://diffusion-vision.github.io/dmd/这里看到。

1. 主要贡献
在本文中，我们提倡使用去噪扩散模型进行零次测量深度估计，并通过几项关键创新来获得最佳性能。特别是，在训练期间使用视场（FOV）增强来提高对不同相机内参的泛化能力，而在训练和推断中使用 FOV 调节有助于解决内在尺度歧义，从而进一步提高性能。以对数域表示深度能更平衡地分配模型容量，以适应室内和室外场景，改善室内性能。最后，我们发现在神经网络去噪中使用 v-参数化大大提高了推断速度。由此产生的模型，被称为 DMD（用于测量深度的扩散），表现优于最近提出的测量深度模型 ZoeDepth [5]。特别是，DMD 在所有八个 [5] 中提到的分布外数据集上的相对深度误差远低于 ZoeDepth，前提是在相同数据上进行微调。扩展训练数据集将进一步提高性能（见图 1）。

总结来说，我们做出了以下贡献：

我们提出了 DMD，这是一种简单而有效的方法，用于零次测量一般场景中的深度。
我们提议通过合成增强 FOV 来改善泛化能力，通过 FOV 调节来解决深度尺度歧义，并通过以对数尺度表示深度来更好地利用模型的表征能力。
DMD 在零次测量深度方面确立了最新的技术水平，与 ZoeDepth 相比，在室内和室外数据集上的相对误差分别降低了 25% 和 33%，同时由于使用 v-参数化扩散，具有高效性。

2. 测量深度的扩散模型（DMD）
在接下来的部分，我们将描述 DMD（用于测量深度的扩散）及其解决这些问题的设计决策。特别是，我们将单目深度估计视为使用去噪扩散的生成性 RGB 到深度的转换任务。为此，我们在传统扩散模型和训练程序中引入了几项技术创新，以适应零次测量的度量深度。

3. 扩散模型
扩散模型是概率模型，假设有一个前向过程逐渐将目标分布转换为易处理的噪声分布。训练有素的神经去噪器被训练来逆转这一过程，迭代地将噪声样本转换为来自目标分布的样本。它们在图像和视频方面表现出了惊人的有效性，并且最近开始用于像分割、跟踪、光流和深度估计这样的密集视觉任务。它们吸引人的原因在于，在回归任务上表现强劲，能够捕获后验不确定性，而不需要特定任务的架构、损失函数和训练程序。

点击经典文献阅读之--DMD(效果媲美双目与RGBD的单目深度估计) - 古月居可查看全文

古-月

关注

12
点赞
踩
18

收藏

觉得还不错? 一键收藏
0
评论
经典文献阅读之--DMD(效果媲美双目与RGBD的单目深度估计)

由于当前的单目深度估计算法效果不理想、而RGBD深度估计不仅需要依赖于RGBD相机，而且成本和功耗比较高，因而双目深度估计是主要的落地方案。特别是，DMD 在所有八个 [5] 中提到的分布外数据集上的相对深度误差远低于 ZoeDepth，前提是在相同数据上进行微调。》一文将给大家介绍一个单目深度估计算法，它可以极大的提升之前的单目深度估计算法的性能，效果比肩双目和RGBD深度估计算法！它们吸引人的原因在于，在回归任务上表现强劲，能够捕获后验不确定性，而不需要特定任务的架构、损失函数和训练程序。
复制链接

扫一扫