深入研究自监督单目深度估计：Monodepth2

最新推荐文章于 2024-04-30 18:59:37 发布

Tom Hardy

最新推荐文章于 2024-04-30 18:59:37 发布

阅读量1.2k

点赞数 1

文章标签：算法计算机视觉机器学习人工智能深度学习

本文链接：https://blog.csdn.net/qq_29462849/article/details/118160817

版权

本文深入解析了Monodepth2模型，该模型旨在从单目RGB图像中恢复深度信息。文章介绍了单目深度估计的挑战，如遮挡和物体运动，并阐述了模型如何通过联合相机位姿估计与单目深度估计解决这些问题。Monodepth2由逆深度估计模块、相机位姿估计模块和改进的损失函数组成，以应对单目遮挡情况和相机运动检测。文章详细讨论了这些组件和损失函数的设计，展示其在单目深度估计领域的优越性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

点击上方“3D视觉工坊”，选择“星标”

干货第一时间送达

单目深度估计模型Monodepth2对应的论文为Digging Into Self-Supervised Monocular Depth Estimation，由伦敦大学学院提出，这篇论文的研究目标是从单目RGB图像中恢复出对应的深度，由图1所示：该网络可以从单目图像中恢复对应的深度，图中不同颜色代表不同的深度。

论文地址：在公众号「计算机视觉工坊」，后台回复「Monodepth2」，即可直接下载。

图1 Monodepth深度估计图

目前单目深度估计的难点，同时也是本论文着重解决的方向：

1、图像序列中存在遮挡。

2、当场景中发生物体运动的情况，如场景中运动的车辆，此时图像序列不仅存在因相机位姿而产生的图像改变，还存在因运动物体而产生的图像亮度的改变

从理论上说：在未给定第二帧图像的情况下估计图像对应的绝对或相对深度值是一个病态问题，因为无法通过构建三角化求解对应深度。然而，从直觉上说：人类通过在现实场景中生活、学习，获得了单眼估计深度的能力。因此，类比人类的学习能力，利用深度学习技术，从单目图像中获取对应的深度是可行的。该篇论文联合相机位姿估计与单目深度估计两项任务，使单目深度估计成为了可能。具体来说便是：首先利用单目深度估计网络进行逆深度估计，需要注意的是：该逆深度被限定在0与1之间，也就是说，该网络估计的为相对逆深度。然后进行相机位姿估计。最后利用相机位姿与视差计算亮度投影误差，作为网络模型的损失函数，利用梯度下降进行参数更新。接下来，本文将分三部分对Monodepth2模型进行介绍，分别是Monodepth2中的逆深度估计模块，相机位姿Pose估计模块，以及训练中使用的损失函数。

一、逆深度估计模块

该模块的作用是从单目