基于域分离的全天图像自监督单目深度估计 Self-supervised Monocular Depth Estimation for All Day Images using Domain Separ

最新推荐文章于 2023-09-11 13:55:12 发布

韩十三*

最新推荐文章于 2023-09-11 13:55:12 发布

阅读量3.3k

点赞数 2

分类专栏：无监督单目深度估计文章标签：计算机视觉人工智能深度学习

本文链接：https://blog.csdn.net/SHS_JAVA/article/details/123040527

版权

无监督单目深度估计专栏收录该内容

18 篇文章 20 订阅

订阅专栏

Self-supervised Monocular Depth Estimation for All Day Images using Domain Separation

基于域分离的全天图像自监督单目深度估计

0 Abstract

亮点：对于全天道路深度估计中的早晚图像差异过大问题。提出了一个域分离自监督单目深度估计网络，主要用来提升同一个网络在白天和晚上两个场景中的深度估计精度,将白天图像和晚上图像的特征分为私有特征和共同特征，采用正交损失来确立私有特征和共同特征的不同。深度估计21年顶会文章对于遮挡和运动物体的处理不是很多，更多的去转换了场景，例如在夜晚，利用光度补丁来弥补夜间图像色彩确实、利用热成像图像来做夜间深度估计，例如在室内，采用曼哈顿约束和共面约束来约束网络、采用侧重旋转分量来提升室内相机姿态估计精度。我最想看的场景流解决动态物体还是没出。-.-

基于深度卷积神经网络的自监督深度估计在白天和夜晚都取得了显著的效果，但是这些方法只能单独的处理白天和夜晚，对于全天的图像，当出现较大的域移动和昼夜图像之间出现光照变化时，这些网络性能就会变差。为了解决这个问题，本文提出了一种用于全天图像自监督深度估计的域分离网络，为了缓解光照的负面影响，本文将昼夜图像对分割成两个互补的子空间：私有域和不变域，前者采用前人提出的CycleGAN网络来将白天图像转为夜晚图像，以保证白天和夜晚具有相同的信息，后者包含基本的共享纹理信息，利用私有特征提取器和不变特征提取器分别来提取图像特征的正交性和相似性，用来缓解域差距，并加入重建损失和光度损失对互补信息和深度图进行有效的估计。

1 Introduction

因为不需要大而准确的地面真实深度标签作为监督信号，自监督深度估计在增强现实、三维重建、SLAM和场景解析中得到了广泛的应用。利用图像序列的隐式监督，可以估计出图像的深度信息。随着神经网络的发展，基于深度卷积神经网络DCNN的方法要优于依赖手工特征和利用相机几何或者相机运动的传统方法。
目前室外深度估计的大多数方法都是对日间图像进行深度估计，采用数据集为KITTI和cityscape。由于白天图像和夜晚图像存在较大差异，所以不能很好的将白天图像进行泛化。夜间的图像是不稳定的，因为低能见度和不均匀照明产生的多个且可移动的光源。一些方法对微光条件下的图像进行深度估计，但性能一般。同时，生成对抗网络也被用来解决夜间深度问题，例如CycleGAN在图像级别和特征级别将夜间信息转化为白天信息。由于白天和夜晚图像之间固有的域转移，使用GAN算法以夜间图像作为输入，很难得到自然的白天图像或者特征，因此性能也受到限制。
在现实世界中，如果视角固定，同一个场景物体的深度信息应该是不变的，不会随着光照角度的推移而出现变化。这表示在深度估计中纹理信息比色彩信息更加重要，针对上述问题，本文将昼夜图像对信息分割为两个互补的子空间：私有域和不变域，私有域包括了昼夜图像的独特信息例如光照等，这些信息会影响深度估计的性能，而不变域包含了纹理信息，可用于一般的深度估计，这样去除掉干扰的光照因素，可以得到较好的深度图。
但是，未匹配的昼夜图相对会干扰私有特征和不变特征的分离。因此，域分离网络以一对白天图像和夜间图像（由GAN网络生成）作为输入，首先理由私有特征提取器和不变特征提取器，通过正交损失和相似性损失来进行度量，从而得到有效的全天深度估计网络。在正交损失方面加入利用特征内积和Gram矩阵内积来确保私有特征和不变特征的正交性。
本文的主要贡献有：

提出了一个域分离的框架，用于全天图像的自监督深度估计。该方法将全天信息分割为两个互补的子空间私有域和不变域，减轻夜间深度估计中的光照干扰项，从而获得更好的深度图。
利用具有正交性和相似性损失的私有不变提取器来提取有效的互补特征来进行深度估计。同时，利用重构损失对得到的互补信息进行细化。
在Oxford RobotCar 数据集上表现良好。
（这应该是第一个做全天的深度估计，指标比其他的高正常，我个人觉得全天对比没有说服力，单个日间和单个夜间应该都比较低所以全天也比较低。个人认为全天方面可以采用日间加夜间的方式来做（直接用两个网络，而不是像本文一样合到一起），这样在保留日间优势的基础上去改进夜间，我觉得指标会更好，当然本文是全天深度估计的第一位，历史意义应该更加浓厚一点）

2 Related work

近年来，自监督深度估计得到了广泛的研究，Monodepth和SFMLearner是第一个采用训练深度网络和独立位姿网络的自监督单目深度估计方法。一些方法在户外场景进行了改进，并在KITTI数据集和Cityscape数据集上进行了充分的评价。一些方法在室内的估计效果更好。但是目前的方法并不能解决全天图像的自监督深度估计性能较差的问题，因为夜间深度估计受到低能见度和不均匀光照的影响。
对于夜间的单目深度估计，一些方法建议添加使用额外的传感器来估计夜间深度估计，例如采用热成像相机传感器来减少夜间能见度低的影响，一些方法增加了激光传感器来提高额外信息。同时，也有一些方法采用生成式对抗网络来进行夜间深度估计。
虽然夜间单目深度估计已经有了显著的进展，但由于白天和夜间图像之间的域转移较大，以夜间图像作为输入，很难获得自然的白天图像或者特征，因此这些方法受到限制。（我前面在看的时候一直怀疑这篇文章的出发点是否可靠，就是单目深度估计在日间或者夜间都取得了一定的效果，要做全天的话，日间加夜间采用两个网络，前端加一个判别网络，当图片光照较好时送到日间网络，反之则送到夜间网络，这样去解决全天效果应该也不会差，为什么要做一个合到一起的网络呢？全文看下来，将问题引导到了单个网络泛化性差的问题上，从这个角度出发去提出全天深度估计网络，呃。。。毕竟ECCV文章，文笔就是好。）
大多数深度估计和立体匹配域自适应方法主要关注合成域和真实域之间或者不同数据集之间的迁移。大多数方法通常将图像从一个域转换到另一个域，一些方法采用图像翻译技术来生成标记数据，一些方法通过使用域不变离焦模糊来作为直接监督，解决了合成图像到真实深度估计的问题。一些方法提出了一种立体匹配的域归一化方法。相比于这些方法，我们提出了一种有效的全天自监督深度估计的域分离框架，该框架能有效的处理图像之间的域转移问题。

3 Method

整体方法有点像2020年的ADFA，只不过ADFA是第一个GAN网络解决夜间深度估计的，而本文是第一个GAN网络解决全天深度估计的，在处理遮挡和动态物体上没有创新。创新是提出了私有特征和不变特征，加入正交损失来确保私有特征和不变特征的独立性。整体损失包含四部分，分别为重建损失，相似性损失，正交损失和光度损失。
请添加图片描述

重建损失

重建损失主要是对于图像I_t^d和图像I_tⁿ的恢复损失，这一部分被认为是夜间图像和日间图像的私有特征，通过下采样网络获得私有特征，通过上采样图像恢复图像，类似于超分重建。不过这里的损失比较简单，常规的超分重建采用L1范数和SSIM来作为损失函数。
请添加图片描述

相似性损失

主要出发点是相同视角下，同一个物体的深度信息应该是一样的，不会收到光照角度的变化而产生变化，所以日间深度图和夜间深度图在理想情况下应该是一样的。
请添加图片描述

正交损失

在内积空间中两向量的内积为0，则称它们是正交的
将私有特征和不变特征通过1×1卷积调整尺寸，变成一维向量，对于向量来说内积为0，代表正交，正交即不相关，保证了私有特征和不变特征的独立性，即L_f。另一部分加入Gram矩阵，Gram矩阵在一定程度上可以表示图像的风格特征。计算私有特征和不变特征的Gram矩阵，随后将Gram矩阵变为一维向量，求内积，即L_g。个人认为这是本文唯一的亮点。
请添加图片描述