单目深度估计梳理(2) -- 多任务篇

前言

参考论文:Mertan A, Duff D J, Unal G. Single image depth estimation: An overview[J]. Digital Signal Processing, 2022: 103441.

这是单目深度估计系列的第二篇文章。基于上面的参考论文,主要梳理有监督学习的多任务篇。点击这里查看单目深度估计梳理(1) – 单任务篇~
文章中的超链接点开即为对应论文链接~


一、多任务是什么?

上一篇文章我们讲了基于单任务的深度估计。那么多任务(Multitasking)又是什么呢?其实,人类本身就是一种多任务的动物。我们会在开车的时候听音乐,在工作的时候摸鱼看知乎… 同样,我们在深度估计的过程中,也可以让一个模型“一心二用”。如:将语义分割、表面法线估计和轮廓估计作为辅助任务(auxiliary task)来解决深度估计的任务。

下面我们就来梳理一下基于多任务的单目深度估计工作。

二、基于多任务的单目深度估计

1.Single Image Depth Estimation From Predicted Semantic Labels

Liu et al.在2010年提出将单目深度估计(SIDE)问题与语义分割问题相结合。与试图直接从外观特征映射到深度的传统方法不同,作者首先对场景进行语义分割,并使用语义标签来指导深度估计。

作者使用两阶段(two-staged)方法。第一阶段使用马尔可夫场(MRF)方法去推断图像中每个像素的语义。作者规定了八种语义:天空、树木、道路、草地、水、建筑物、山脉和前景物体。前七种类别涵盖了大部分的户外背景,而最后一个类别是不特定的前景物体:如汽车、路牌、人等。在第二阶段,作者使用第一阶段预测的语义标签来进行深度估计。为了充分利用语义信息,这里是为每个语义训练一个单独的深度估计器来估计深度。

上图从左到右依次为原始图片、语义分割图、真实深度图与预测深度图。

2.Pulling Things out of Perspective

Ladicky et al.观察到之前的方法不包含透视原理,图像中对象的外观由于深度的不同会有很大差异,所以需要对对象的不同深度进行学习。为了克服这个问题,作者利用图像中像素深度与图像缩放成反比的原理,得到表达式为:
H d ( I , i ) = H d / α ( α ∗ I , α i ) H_{d}(I,i) = H_{d/\alpha }(\alpha * I,\alpha i) Hd(I,i)=Hd/α(αI,αi)

其中 i i i为每个像素, α \alpha α为缩放比例, d d d为任意深度, H d ( I , i ) H_{d}(I,i) Hd(I,i)是像素 i i i在图像 I I I中位于深度 d d d的概率, α ∗ I \alpha*I αI是缩放后的图像。以此为基础,训练 L L L个分类器 H d ( I , i ) H_{d}(I,i) Hd(I,i),分类器输出像素 i i i在图像 I I I中处于深度 d d d的可能性,并输出语义分割标签 l l l。图像 I I I可被缩放因子 α \alpha α缩放至将像素投影至指定深度 d d d。这样就可以使用缩放因子计算像素的实际深度。

这样操作的好处在于,将估计深度和语义类别的联合问题简化为待测像素是否具有特定深度和特定类别的简单问题,让学习过程只需要针对特定深度,而不是所有深度的所有特征。

3.Towards Unified Depth and Semantic Prediction from a Single Image

Wang et al.尝试联合解决SIDE问题与语义分割问题,将这两个任务集成在一个框架中解决而不是顺序的解决它们。

可以看出,网络由三部分组成。第一部分是全局(Global)CNN,用于像素级深度预测(Pixel potential)和语义标签预测;第二部分是区域(Region)CNN,用于超像素深度预测(Region potential)和语义标签预测;第三部分为分层条件随机场CRF,对像素深度与超像素深度进行refine,联合训练,相比单独训练分别提高了两个任务的精确度。

4.Geonet: Geometric neural network for joint depth and surface normal estimation

Qi et al.尝试联合解决SIDE问题与表面法线问题,提出了名为GeoNet的网络。网络架构如下图:

此网络分为两个部分,第一部分是根据RGB图片预测初始深度(Initial Depth)和初始表面法线(Initial Normal);第二部分为深度转法线和法线转深度网络,第一部分的输出就是第二部分的输入,最终得到refine的深度和表面法线图。

5.PAD-Net: Multi-Tasks Guided Prediction-and-Distillation Network for Simultaneous Depth Estimation and Scene Parsing

Xu et al.通过预测和组合由互补任务组成的中间输出,将SIDE问题与表面法线问题结合。主要方法是利用伪多任务输入来估计每个单一任务,因为多模态输入网络优于单一RGB输入的网络。网络架构如下图:

在这里插入图片描述

网络由两部分组成。第一部分RGB图像输入一个通用的编码器E,得到特征图,再经过四个单独的解码器输出像素深度、表面法线、轮廓标签和分割标签;第二部分设计了一种蒸馏模型,通过第一阶段的输出分别预测深度与分割。“DECONV”表示用于上采样和生成任务特定特征图的反卷积操作。立方体“多模态蒸馏”代表提出的多模态蒸馏模块,用于融合多个预测以改进最终的主要任务。

6.Joint Task-Recursive Learning for Semantic Segmentation and Depth Estimation

Zhang et al.基本思想也是SIDE与语义分割结合,但与4的设计思想不同。4中的网络结构为两个任务共享一部分网络,下层网络不同,分别进行各自任务;而本文网络受人类学习系统启发,在两个互补任务间来回交替。

7.Pattern-Affinitive Propagation Across Depth, Surface Normal and Semantic Segmentation

Zhang et al.将SIDE、表面法线估计与语义分割合并在一个网络中。文章指出了多任务特征学习过程中容易产生歧义,所以在设计的网络没有学习所有特征,而是设计一种方法在不同任务之间寻找相似特征。

8.Pattern-Affinitive Propagation Across Depth, Surface Normal and Semantic Segmentation

Chen et al.将非监督SIDE问题与监督语义分割问题,使用改进的网络利用跨任务特征来提高每个任务的性能。网络结构:包含一个编码器E,对图像生成一个sence
representation z;然后通过与编码器skip connection D的解码器,对sence representation z与任务编码t,来产生跨模态预测,深度任务编码是一个只有1的层,语义分割任务编码是一个只有0的层。不同任务使用相同的解码器,以便更好地共享特征。最后将逐像素平均池化与softmax用于跨模态预测,来获得语义分割概率与深度图。

三、总结

下图为多任务的相关论文总结表格:

可以看出,在多任务单目深度估计中,主要联合的是语义分割、表面法线估计这两个任务,baseline基本为ResNet,且通常为两阶段网络。

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值