每天一篇论文 282/365 Self-Supervised Monocular Depth Hints

原文

摘要

像素点的深度真值是很难获得的,自监督单目深度估计网络的出现是解决这个难题一个很有希望的办法,本文作者提出了一系列的改进,与现有的自监督方法相比,这些改进共同作用得到了定量和定性改进的深度图。自监督单目深度网络的研究通常探究日益复杂的框架,损失函数和图像形成模型,这些有效地缩进了与有监督方法的差距。我们表明一个意外简单的模型和相关的设计选择,可以带来不俗的预测效果。特别是我们提出,(i)最小重投影损失,目的是稳健地处理遮挡情况,(ii)减少视觉伪像的全分辨率多尺度采样方法,(iii)自动掩盖损失以忽略那些违反相机运动假设的训练像素。我们分别展示了每个模块的有效性,并在KITTI基准上显示了高质量的最新结果。

贡献

1.我们表明已有的自监督递归网络在最小化光度重投影误差时,会陷入无法找到最优解的窘境中。
2.我们证明了使用深度提示的选择性训练是一种通用的提升手段,它可以改进多个网络,使他们达到最小值。而这个深度提示来自于双目图像。
3.我们发现带有深度提示的选择性训练结合明智的网络设计选择,使我们的方法超过了其他算法。我们在KITTI数据集上取得了高质量的结果,不仅超过了我们之前的基准模型,也超过了那些已发表的算法。

为什么要提出depth Hint

Godard等人提出的深度估计网络,使用DSSIM+L1丢失的双目数据进行训练。我们可以看到,网络未能收敛到正确的解,预测深度图中缺少许多细节结构。
在这里插入图片描述
图1

这些错误是怎么产生的?

这并不是泛化失败或过度拟合的结果,因为这是来自训练集的图像。另一种解释可能是深度图的伪影是由于光度重投影损失的选择不当,在这种情况下,细节结构上的故障没有受到足够的惩罚。但是,图1(底部)显示了细节对象上像素的DSSIM+L1损耗,我们可以看到,对于更合适的深度值,损耗仍然较低。我们假设,在没有地面真值深度标签的情况下,网络会陷入困境,学习为重新投影损失的局部最小值回归深度,而未能寻求全局最小值。为了避免这种坏的最小值,我们建议参考一个可选的深度值,以防它能提供一个更合理的重投影,如果是,则将其合并到目标函数中。我们将这些可选深度值称为深度提示。由噪声估计产生的深度提示,可能比我们当前的网络预测更准确,因此我们期望CNN的迭代训练在收敛时逐渐改变对这些提示的吸收。与有监督的深度预测相比,我们的主要关注点是使用标准的自监督重投影损失收敛到最佳最小值。深度提示仅在需要时用于引导网络脱离本地最小值。

训练双目图相对

本文提出的网络提供每个像素 “深度提示”,即网络自身深度估计的潜在替代假设。关键思想是,我们只想在深度提示的地方提供监控信号, 与使用网络预测相比以使它们具有出色的重新投影图像。否则,提示将被忽略。需要明确的是,提出的目标不是在学习回归暗示深度值的图。
在这里插入图片描述
作者提出使用双目图片对得到“深度提示”,其实就是通过Semi-Global Matching这样一个双目匹配算法去产生深度图。论文中把这种方法叫做“RandomSGM” 。另外又提出对于每个训练图像对,我们可以通过使用每个可能的超参数选择运行SGM来生成深度图的集合。我们将此空间离散化为12个参数选择,这些参数选择由三种块大小和四种分辨率的组合组成 我们将此版本的深度提示称为“FusedSGM”. 值得注意的是作者模型使用的就是第二种(Fused SGM),但是给出了两种匹配算法的效果对比。
在这里插入图片描述

网络选择

作者的网络使用的是encoder-decoder结构,encoder是比较经典的resnet-18,也是许多单目估计网络的选择。作者在ImageNet进行了预训练并且还表明图片分辨率对精确度有很直接的影响。

结果

不同的双目匹配算法结合不同的损失函数对最终结果的影响,可以看出作者文中所使用的FusedSGM+L_ours取得了最好的结果。
在这里插入图片描述

不同网络训练对比

在这里插入图片描述

与其他算法对比

在这里插入图片描述

效果

在这里插入图片描述

发布了131 篇原创文章 · 获赞 10 · 访问量 7677
展开阅读全文

没有更多推荐了,返回首页

©️2019 CSDN 皮肤主题: 大白 设计师: CSDN官方博客

分享到微信朋友圈

×

扫一扫,手机浏览