【paper】Unsupervised Monocular Depth Estimation with Semantic-aware Representation

本文提出一种名为SceneNet的框架,旨在无监督地进行单目深度估计,并结合语义分割信息提高预测准确性。通过解决深度与视差之间的不匹配问题,SceneNet包含一个公用的编码解码结构,能处理多任务学习,同时适用于不同的数据集。实验表明,该方法在KITTI和Cityscapes数据集上取得了最先进的结果。
摘要由CSDN通过智能技术生成


论文地址: CVPR2019_Unsupervised Monocular Depth Estimation with Semantic-aware Representation

Motivation

对于场景理解与表示,depth 可以给予的是立体结构的信息,而segmentation(下面简称seg)可以给予的是语义的信息。两者在其包含内容上其实存在某种一致性。所以作者想要无监督的预测depth 并且加入有监督的seg来增强 depth map 的预测结果

contribution

1、指出了最近一些无监督预测depth的方法中可能出现的 “mismatch problem”(不匹配的情况。会在下面详细给出)
2、提出了一个叫做ScenceNet的东西可以同时得到几何信息和语义信息。这其中包含了三个模块,会在下面给出
3、端到端的网络结构使得作者可以利用不同的数据集进行训练
4、得到了state-of-the-art结果

Framework

文章网络结构
作者的目的在于直接从一张单目图像中预测出depth的信息。但是在实际操作中,他预测的是一个叫做视差(disparity)的东西,因为视差与depth存在一定的关系式,可以看作disparity与depth成反比。并且无监督的去预测depth中一个很主流的做法就是通过左右眼立体图像去算视差。
(不知道视差的同学可以先行百度一下)
想要同时处理无监督的depth predicition 与有监督的seg predicition, 所以他提出了这样的端到端的(end-to-end)结构,能够根据不同的任务共同训练公用的网络结构部分(即图中的encode与decode部分)。

overview of network

首先大概梳理一下网络的流程:
1、网络的输入是一张单目的RGB图像,但是这个图像可能来源于以下两类:1、单目的立体图像(左右眼)——为了预测视差2、单目的RGB图像+seg label(左右眼)——为了预测seg。

在这里其实感觉有点像一个多任务的问题。作者自己也说这里其实就是multi-task。他还提出,一般的multi-task都是每个任务一个subnetwork,这样其实还得finetune啊之类的,

评论 8
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值