每天一篇论文 339/365 Geometry meets semantics for semi-supervised monocular depth estimation

Geometry meets semantics for semi-supervised monocular depth estimation
摘要

从单个图像进行深度估计是计算机视觉中一个非常激动人心的挑战。虽然其他基于图像的深度传感技术利用不同视点之间的几何结构(例如,来自运动的立体或结构),但是在单个图像中缺少这些线索会使单目深度估计任务变得不适定。为了便于推断,用于单目深度估计的最新编码器-解码器体系结构依赖于在训练时学习到的有效特征表示。对于这些模型的无监督训练,通过从立体设备或移动相机获取的视图计算适当的图像扭曲损失,有效地利用了几何。本文进一步说明了从图像中学习语义信息可以有效地提高单目深度估计的效果。特别是,通过利用语义标记图像和通过图像偏差损失获得的几何无监督信号,我们提出了一种用于语义分割和深度估计的深度学习方法。我们的整体学习框架是半监督的,因为我们只在语义域中部署GT数据。在训练时,我们的网络学习了两个任务的共同特征表示,并提出了一种新的跨任务损失函数。实验结果表明,联合处理深度预测和语义分割可以提高深度估计的精度。特别是,在KITTI数据集上,我们的网络在单目深度估计方面优于最先进的方法。

贡献

据我们所知,本文首先提出了集成 基于有监督语义分割的无监督单目深度估计。通过应用这种新的范例,我们根据两个主要贡献改进了最先进的编码器深度估计架构[1]:
–我们建议引入一个额外的解码器流,该解码器流基于与部署用于深度估计和训练用于语义分割的解码器流相同的特性;因此,训练整体架构以共同优化这两个任务。
–我们提出了一个新的损失术语,跨域不连续损失Lcdd,旨在加强深度不连续和语义轮廓之间的空间接近性。

方法

本文提出的方法受成功预测单个图像深度的启发,设计了一种适合于联合深度估计和语义分割的编解码结构。编码器负责通过增加网络的接收场来学习丰富的特征表示,同时减少输入维数和计算开销。
解码器通过向上采样算子恢复原始输入分辨率,然后通过跳过连接与编码器以相应分辨率连接的3×3卷积来恢复原始输入分辨率。如图2所示,为了推断深度和语义,我们继续依赖于单个编码器(绿色)并复制解码器以实现第二估计器。两个解码器(蓝色,红色)不共享权重,训练以最小化不同的损失,它们处理深度预测(蓝色)和语义分割(红色)任务。当两个解码器由不同的梯度流更新时,共享编码器(绿色)根据两个流更新,从而学习针对两个任务联合优化的表示。
在这里插入图片描述
图3显示了由于网络学习到的语义上下文(d),与独立的深度学习(c)相比,用于共同处理两个任务的共享表示如何能够在估计深度(e)时重建更好的形状。
在这里插入图片描述
损失函数设置:
在这里插入图片描述

实验结果

深度估计
在这里插入图片描述
语义分割和深度估计联合实验结果
在这里插入图片描述

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值