Metric3D：Towards Zero-shot Metric 3D Prediction from A Single Image

m_buddy

已于 2023-08-02 10:11:05 修改

阅读量3k

点赞数

分类专栏： # Depth Estimation 文章标签： 3d 数码相机

于 2023-08-02 00:38:29 首次发布

本文链接：https://blog.csdn.net/m_buddy/article/details/132052751

版权

文章探讨了在深度学习中如何通过考虑焦距因素，实现scale-invariant的深度估计。Metric3D方法通过校准训练数据，针对不同设备和焦距的差异进行补偿，从而提高模型的泛化能力。实验结果展示了在KITTI和NYU数据集上的性能比较。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

参考代码：Metric3D

介绍

在如MiDas、LeReS这些文章中对于来源不同的深度数据集使用归一化深度作为学习目标，则在网络学习的过程中就天然失去了对真实深度和物体尺寸的度量能力。而这篇文章比较明确地指出了影响深度估计尺度变化大的因素就是焦距 $f$ ，则对输入的图像或是GT做对应补偿之后就可以学习到具备scale表达能力的深度预测，这个跟车端视觉感知的泛化是一个道理。需要注意的是这里使用到的训练数据集需要预先知道相机的参数信息，且这里使用的相机模型为针孔模型。

在下图中首先比较了两种不同拍摄设备得到的图片在文章算法下测量物体的效果，可以说相差不大。
在这里插入图片描述

有了较为准确的深度估计结果之后，对应的单目slam、里程记这些都不是问题了。在配上大量的深度估计训练数据，那么泛化能力将会得到巨大提升，届时之前许多病态的问题都将得到解决。

方法设计

明确影响深度scale学习关键因子为焦距 $f$

对于针孔相机其内参主要参数为： $\frac{f_x}{\delta_x},\frac{f_y}{\delta_y},u_0,v_0$ ，其中 $f_x,f_y,\delta_x,\delta_y$ 分别代表两个方向的焦距（一般情况下取两者相等）和像素大小，物理单位为微米。在相机中还有一个参数是成像传感器的尺寸，但是这个只影响成像的大小，就好比残画幅单反和全画幅单反的区别。

对于另外一个因素 $\delta$ 代表的是一个像素大小，在单孔成像原理中焦距、深度和成像大小的关系为（使用下图A图做相似三角形计算得到）：
$d_a=\hat{S}[\frac{f}{\hat{S}^{'}}]=\hat{S}\cdot\alpha,\alpha=[\frac{f}{\hat{S}^{'}}]$