文章目录
论文地址: CVPR2019_Unsupervised Monocular Depth Estimation with Semantic-aware Representation
Motivation
对于场景理解与表示,depth 可以给予的是立体结构的信息,而segmentation(下面简称seg)可以给予的是语义的信息。两者在其包含内容上其实存在某种一致性。所以作者想要无监督的预测depth 并且加入有监督的seg来增强 depth map 的预测结果
contribution
1、指出了最近一些无监督预测depth的方法中可能出现的 “mismatch problem”(不匹配的情况。会在下面详细给出)
2、提出了一个叫做ScenceNet的东西可以同时得到几何信息和语义信息。这其中包含了三个模块,会在下面给出
3、端到端的网络结构使得作者可以利用不同的数据集进行训练
4、得到了state-of-the-art结果
Framework
作者的目的在于直接从一张单目图像中预测出depth的信息。但是在实际操作中,他预测的是一个叫做视差(disparity)的东西,因为视差与depth存在一定的关系式,可以看作disparity与depth成反比。并且无监督的去预测depth中一个很主流的做法就是通过左右眼立体图像去算视差。
(不知道视差的同学可以先行百度一下)
想要同时处理无监督的depth predicition 与有监督的seg predicition, 所以他提出了这样的端到端的(end-to-end)结构,能够根据不同的任务共同训练公用的网络结构部分(即图中的encode与decode部分)。
overview of network
首先大概梳理一下网络的流程:
1、网络的输入是一张单目的RGB图像,但是这个图像可能来源于以下两类:1、单目的立体图像(左右眼)——为了预测视差2、单目的RGB图像+seg label(左右眼)——为了预测seg。
在这里其实感觉有点像一个多任务的问题。作者自己也说这里其实就是multi-task。他还提出,一般的multi-task都是每个任务一个subnetwork,这样其实还得finetune啊之类的,