自监督单目深度估计：通过语义引导解决目标问题 Self-Supervised Monocular Depth Estimation:Solving the Dynamic Object Problem_self-supervised monocular depth estimation: solvin-CSDN博客

本文链接：https://blog.csdn.net/SHS_JAVA/article/details/116120125

Self-Supervised Monocular Depth Estimation:Solving the Dynamic Object Problem

(自监督单目深度估计：通过语义引导解决目标问题)

重投影损失：指当前观测到的位置与3D点按照当前位姿估计出来的位置相比较得到的误差。

0 摘要

提出一种新的语义引导的深度估计（SGDepth）方法来处理运动的动态类问题（DC）,例如运动的汽车和行人。采用有监督的语义分割和自监督的深度估计进行互利跨域训练，提供防止移动对象污染的光度损失的语义遮蔽方案，以及对非移动对象的检测方法。

1介绍

经典的基于模型的算法可以根据可以更具立体图像或图像序列预测深度，但是受到模型质量的限制。深度学习能够在激光雷达或者RGBD相机测量的监控下，从单个弹幕图像中预测深度，即有监督的深度估计。后续根据最小重投影损失引入了自监督的方法，并且通过最小化光度误差来优化深度，而不需要任何的标签。在这里插入图片描述
上图在源域下进行有监督的语义分割，在目标域下进行自监督的深度估计。在进行深度估计时，将已经训练好的语义分割网络用来指导深度估计过程，语义分割相当于预处理。例如输入的单张图片，先进行语义分割，再将语义分割的结果用来指导深度估计。
自监督单目深度估计目前有以下三个问题：

无法避免的遮挡问题，遮挡会诱发伪像。即遮挡问题会带来无法避免的重投影损失问题。
由于缺乏自我运动，帧间运动太小，导致不能推断出任何结构。
移动物体，违反了静态世界的假设。

第一个问题遮挡问题是单目深度估计无法避免的问题，也是以后不断需要优化的问题。第二个问题，即SFM运动恢复结构方法（具体可以看SFMLearner论文），当帧间位移太小，导致得到的视差图几乎不变，最终无法恢复出深度图。第三个问题，就是运动物体的深度估计问题，当运动的物体的运动方向和速度与摄像机一致时，该物体的深度会被估计为无限远，即holes现象。
Godard等人（Mono和Mono2的作者）通过最小化重投影损失和自动掩蔽技术来解决前两个问题，本文中也采用了这种方法。针对第三个问题该文加入语义分割来进行运动物体的识别。该论文的三个贡献：