Digging into self-supervised monocular depth estimation 论文阅读

本人好丢昵称，拾到感谢

已于 2023-02-24 16:04:31 修改

阅读量215

点赞数

分类专栏：论文阅读文章标签：论文阅读计算机视觉人工智能

于 2023-02-24 15:01:53 首次发布

本文链接：https://blog.csdn.net/qq_44570642/article/details/129200064

版权

论文阅读专栏收录该内容

4 篇文章 0 订阅

订阅专栏

论文信息

标题：自监督单目深度估计研究
发表于：2019 ICCV
自监督主要为了能够学习到一种通用的特征表达用于下游任务

Abstract

逐像素的真实场景深度难以获取，论文使用自监督模型，通过一系列的改进，使得结果得到定量和定性的改进。主要有以下三点：

最小重投影损失，用于处理遮挡
减少视觉伪影的全分辨率多尺度采样方法
自动掩蔽损失，忽略违反摄像机运动假设的训练像素

论文在KITTI数据集上分别验证了方法所取得的结果。

Introduction

如果计算机通过单张图像来估计出密集的深度图像是比较困难的，因为没有第二个输入的图像就很难实现三角测量，但是人类在现实世界中能够完成这个任务。
这一任务在现实中有很大的价值，它可以廉价的补充radar用于自动驾驶，还能够支持新的照片应用。而且深度学习也通过预训练模型广泛的应用于下游任务，但是收集一个多样的大型数据集是一项艰难任务。研究表明，使用同步立体双目数据和单目序列视频是可以训练单目深度估计模型的。
作者的模型通过单目，立体和联合数据进行监督训练

作者的模型通过单目，立体和联合数据进行监督训练

在这两个方法之中，单目视频是基于双目的立体监督有吸引力的替代方案。单目视频也有其难处，除了在估计深度之外，模型需要在训练的过程中估计时间图像序列的运动，也就是需要训练姿态估计网络并输出对应的相机变换。而双目立体数据可能会使相机姿态估计成为一次性离线校准，导致与遮挡和纹理复制伪影相关的问题。
文章提出了结合的三种架构和损失创新，在使用上述数据集训练时显著改善了单目深度估计的效果：

解决使用单目监督时出现的遮挡像素问题的外观匹配损失
一种简单的遮蔽方法，可以忽略没有在单目训练中被相机观察的情况。
在所有输入图像上的采样，减少深度失真的多尺度外观匹配损失

这些简化了现有最高性能模型的组件在KITTI数据集上均产生了最好的单目与双目自监督深度估计结果。
在这里插入图片描述

单目无法在训练过程中预测到运动物体的深度，比如移动的汽车、明确的运动模型。而作者方法在其他论文失败的地方成功了。

Related Work

模型在测试时，将单张图片作为输入，将每个像素的深度作为输出。

监督的深度估计（Supervised Depth Estimation

从单张图片中估计深度是一个内在的病态问题，因为其同一幅输入图像可能会投影到多个看似合理的深度。而基于深度学习的方法已经表明可以通过预测模型来找出彩色图像和他们对应深度的关系。
全监督模型在训练的过程中需要真实的深度数据，但这是比较困难的。很多方法采用技巧来训练数据，但他们都或多或少采用了附加深度和注释。合成数据也是一种方法，但这跟含有大量信息的真实世界还是有一定的差距。最近工作表明，SFM可以为相机位姿和深度同时生成稀疏信号，其中SFM通常作为与学习分离的预处理步骤运行。文章也加入传统立体声算法的噪声深度提示来改进深度预测。

自监督的深度估计（Sel-supervised Depth Estimation

在缺乏真实深度的情况下，一种选择是使用图像重建作为监督信号来训练深度估计模型。这里模型将一组单目或者双目图像作为输入，投影虚幻的图像深度到临近的图像中，通过最小化图像重建误差来训练模型

自监督的双目训练

自监督的一种形式是立体双目对。训练中可用同步的双目图像，通过预测双目之间的视差来训练可以测试单目深度的深度网络。针对新视图的合成问题，文章提出了一种具有离散化深度的模型，可以通过预测连续视差值对方法进行拓展；可以通过引入左右深度一致项产生优于当前监督方法的结果。
在这个过程中发现，在仔细选择外观损失和图像分辨率的情况下，仅使用单目训练就可以达到立体训练的性能。此外文章对双目也有延伸到立体声培训提高了性能。

自监督的单目训练

使用单目视频是自监督的一种限制较少的形式，其中连续的时间帧提供训练信号。除了预测深度，网络还需要估计帧之间的相机姿态，这在有物体运动的情况下是困难的。而估计的相机姿态仅在训练期间需要以约束深度估计网络。
最早的单目自监督方法训练了一个深度估计网络和姿态估计网络，文章加入了一个运动遮罩来解决模型中非刚性运动区域。有些方法采用了遮罩和光流的研究来同时建模。
最新的方法已经开始拉近单目和双目自监督模型的差距…

基于表面/外观的损失

自监督训练通常依赖于对亮度恒定性和帧之间的传感器数据。而结果表明与简单的成对像素相比，包含基于外观损失的局部结果显著改善了深度估计性能。通过一个误差拟合项来探索它具有的对抗性的损失，以鼓励合成图像的逼真外观。

Method

本人好丢昵称，拾到感谢

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
Digging into self-supervised monocular depth estimation 论文阅读

Digging Into Self-Supervised Monocular Depth Estimation
复制链接

扫一扫

专栏目录