使用循环生成网络的无监督对抗深度估计 (论文2018)

Unsupervised Adversarial Depth Estimation using Cycled Generative Networks

原文:https://cn.bing.com/academic/profile?id=eaa8d784ceeab3a5a2baa1e90fd52acc&encoded=0&v=paper_preview&mkt=zh-cn
申明:自己记录自己的学习,欢迎一起学习讨论

摘要:

近年来,基于监督回归的深度单目深度估计方法取得了显著的效果,但在训练过程中需要代价高昂的地面真值标注。针对这一问题,本文提出了一种新的无监督深度学习方法来预测深度图,并证明了该方法可以在对抗性学习框架下有效地解决深度估计问题。具体地说,我们提出了一个深度生成网络,该网络学习在校准立体相机设置中预测两个图像视图之间的对应场(即视差图)。该体系结构由两个生成子网络组成,两个子网络通过对抗性学习共同训练,重构视差图,并以一个循环的方式组织起来,相互约束和监督。在Kitti和CityScapes的公开数据集上进行的大量实验证明了所提出模型的有效性,以及采用最新方法的竞争结果。代码可在https://github.com/andrea pilzer/unsp-stereo-depthgan上找到

一、介绍

深度估计作为计算机视觉的基本问题之一,在机器人导航、三维重建、虚拟现实和自主驾驶等应用场景中具有重要的应用价值。在过去的几年中,由于先进的深度学习技术,深度估计方法的性能有了显著的提高。
大多数以前考虑深度图预测深层结构的工作都是在有监督的学习环境下进行的[3,11,13,24],特别是,利用卷积神经网络(CNN)设计出强大的深度回归模型。这些模型用于单目深度估计,即他们经过训练,可以学习从 RGB 图像域到深度域的像素到像素方式的转换。在这种情况下,多尺度CNN模型被证明对估计深度图特别有效[3]。在此基础上,作为端到端优化的神经网络实现的概率图形模型(如条件随机场CRFs)被证明是有益的,提高了深度回归模型的性能[13,24]。然而,有监督的学习模型需要地面真值深度数据,而这些数据的获取成本通常很高。这个问题与深度学习架构特别相关,因为通常需要大量数据才能产生令人满意的性能。此外,由于尺度模糊问题,有监督的单目深度估计可被视为不适定问题[18]。

为了解决这些问题,最近引入了基于无监督学习的深度估计方法[14,16]。这些方法通过仅使用校正的左、右图像来学习校准立体相机的两个不同图像视图之间的对应场(即视差图)来操作。那么,给定多个摄像机参数下,利用预测的视差图可以计算出深度图。沿着这条研究路线取得了重大进展[4,6,20]。特别是Godard等人[6]提出了利用单一生成网络来估计直接视差图和反向视差图,并利用左右视差图的一致性来约束模型学习。其他工作建议通过联合学习相机姿势来促进深度估计[29,15]。这些工作依赖于对期望视差图的图像合成的监控来优化模型,其质量直接影响估计视差图的性能。然而,所有这些工作都只考虑了重建损失,没有一个探索使用对抗学习来改进合成图像的生成。

在本文中,我们遵循无监督的学习环境,提出了一种新的端到端可训练的深度网络模型,用于在给定立体图像对的情况下,基于对抗学习的深度估计。该方法由两个生成子网络组成,分别从左到右预测视差图和viceversa。这两个子网按一个周期组织(图1),例如在一个闭环中执行不同视图的图像合成。这种新的网络设计为每个图像视图提供了强大的约束和监督,有助于优化来自两个子网络的两个生成器,这两个子网络是通过对抗性学习策略共同学习的。最后的视差图是由两个发生器的输出合成的。
在这里插入图片描述

总之,本文的主要贡献有三个方面:
(1)据我们所知,我们是第一个探索使用对抗性学习来促进在统一的深度网络中不同视图的图像合成,以改进无监督的深度估计
(2)提出了一种新的无监督深度估计循环生成网络结构,它既能学习正、反视差图,又能闭环合成不同的图像视图。与现有的生成网络结构相比,所提出的循环生成网络能够从每个图像视图中执行更强的约束,并且更好地优化网络生成器。
(3)在两个大型公共数据集(kitti和cityscapes)上进行的大量实验证明了对抗性图像合成和循环生成网络结构的有效性。

二、相关工作

监督深度估计。有监督的深度学习大大提高了深度估计的性能。在足够的地面真值深度训练数据下,基于深度神经网络的方法近年来取得了很好的效果。已经发布了多个包含深度的大规模数据集[17、19、5、2]。在单视图设置中,nyud[17]显示室内图像,而Make3d[19]在室外录制。取而代之的是,Kitti[5]和CityScape[2]是在室外用经过校准的立体摄像机采集的。基于这些数据集,有监督的单目深度估计任务[3,13,31,12,24]已经做了很大的努力。基于深度网络的多尺度CNN[3]和概率图形模型[13,24,23]也显示出了明显的性能提升。Xu等人[25]首先引入一种结构化的注意机制,以便更好地学习任务的多尺度深层表征。然而,基于监督的方法依赖于昂贵的地面真理深度数据训练期间,这是不灵活的部署跨应用场景。

无监督深度估计。最近的一个趋势是基于无监督的深度估计[10,15,20,28]。无监督估计的一个显著优点在于避免了在训练中使用代价高昂的地面真值深度标注。提出了用于直接视差估计的深度立体匹配模型[14,16]。以间接的方式,garg等人。[4]提出了一种基于图像合成的无监督单目深度估计的经典方法。Godard等人[6]提出对不同的图像视图进行前后向重构,模型中考虑了多个优化损失。Zhou等人[29]共同学习深度和相机在单个深度网络中的加固效果。也有一些作品联合学习场景深度和单目视频中的自我运动,而不使用基本事实数据[21,26]。然而,这些研究都没有在模型中考虑对抗性学习方案来提高图像生成质量以获得更好的深度估计。

GANs。生成性对抗网络(GANs)因其在生成问题中的优势而受到广泛关注。戈德费罗等人。[7]回顾生成性对抗性学习策略,并在图像生成任务中展示有趣的结果。在此之后,GAN被应用于各种生成应用中,并发展了不同的GAN模型,如Cyclegan[30]和Dualgan[27]。对于更具挑战性的深度估计任务,文献中很少考虑GAN模型。尽管Kundu等人[9]研究任务的对抗性学习,他们将其用于单轨网络中的域适应环境,使用半监督设置和额外的合成数据集,而我们认为完全无监督的环境和循环生成网络中的对抗学习旨在帮助重建更好的图像视图。直觉和网络设计都有显著的不同。

三、提议的方法

提出了一种基于循环生成网络的无监督对抗深度估计方法。图2显示了不同无监督深度估计模型的示例性比较。图2a显示了传统的基于立体匹配的深度估计方法,该方法基本上学习了用于直接预测视差的立体匹配网络[14]。与传统的立体方法不同,我们使用如图2b所示的对抗性学习策略从不同的角度通过图像合成来估计间接方法中的差异。图2c显示了我们使用所提出的循环生成网络来完成任务的完整模型。在这一部分中,我们首先给出问题陈述,然后提出了基于对抗学习的无监督立体深度估计方法,最后说明了所提出的完整模型,并介绍了整个端到端优化目标和测试过程。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3.3.循环生成网络用于对抗深度估计

在前一节中,我们提出了一种基于对抗学习的深度估计方法,它可以直接从一个图像视图重建到另一个图像视图。为了使不同视角下的图像重建隐式地相互约束,我们进一步提出了一种循环生成网络结构。拟议网络结构的概述如图2所示。该网络从不同的视差方向生成两个不同的视差图,并在一个闭环中合成不同的视差图像。在我们的网络设计中,不仅不同的视点重建损失有助于更好地优化生成器,而且两个视差图之间还连接了一个一致性损失,以便从每个半周期提供强大的监控。
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
四、实验结果

我们在公开的数据集上给出了定性和定量的结果,以证明所提出的无监督对抗深度估计方法的性能。

4.1.实验装置

数据集。我们在两个大数据集上进行了实验,即kitti[5]和cityscapes[2]。对于kitti数据集,我们使用特征分割[3]进行训练和测试。此分割包含22600个训练图像对和697个测试对。在训练过程中,我们通过在线随机抽取图像进行数据增强。城市景观数据集是在一天中不同的时间和季节,使用立体相机从一辆行驶在德国几个城市的汽车上收集的。它提供了更高分辨率的图像,主要用于语义分割。为了训练我们的模型,我们将密集和粗注释的分割结合起来得到22973个图像对。为了进行测试,我们使用了1525个密集注释分割的图像对。测试集还具有用于评估的预先计算的视差图。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
4.2.融合研究

为了验证对抗性学习策略有利于无监督深度估计,并且所提出的循环生成网络对该任务有效,我们对Kitti数据集(见表1)和CityScape数据集(见表3)进行了广泛的消融研究。
在这里插入图片描述
在这里插入图片描述
基线模型。我们有几个用于消融研究的基线模型,包括(i)具有单目设置的半周期(半周期单目),该模型使用一个向前的分支从一个图像视图合成到另一个图像视图,输出一个视差图,在测试过程中输入单个RGB图像;(ii)半周期立体声设置(半周期立体声),该设置使用直行分支,但生成并组合两个视差图;(iii)带有鉴别器的半周期(半周期+D),其使用如(ii)中所述的单个分支,同时添加鉴别器进行图像合成;(iv)带有两个鉴别器的全周期(全周期+D),这是我们使用带有两个鉴别器的全周期的整个模型;(v)具有两个鉴别器和共享编码器的全周期(全周期+D+SE),其结构与(iv)相同,而发电机的编码器的参数是共享的。

对Kitti蒂的评价。从表1可以看出,与基线模型半周期单声道相比,基线模型半周期立体声在八分之七的评价指标上表现出明显的更好的性能,这表明立体图像的利用和两个估计的互补视差图的组合明显提高了性能。
通过使用对抗性学习策略进行图像合成,基线半周期 + D 优于基线半周期立体声,在 Abs Rel 的指标上获得大约 1.7 点,这验证了我们使用对抗性学习的初始直觉提高图像合成质量,从而获得差异预测的提高。此外,我们还观察到,在训练过程中,对抗性学习有助于保持一个更稳定的收敛趋势,并且在训练损失方面比没有它的训练损失(即半周期立体声)小,这可能会导致一个更好的优化模型。

我们还可以清楚地观察到,在所有指标上,与仅使用半周期(半周期d)的模型相比,所提出的循环生成网络(全周期d)取得了更好的效果。具体地说,全周期d模型提高了absrel约2个点,并且在半周期d的基础上提高了精度a1约1.9个点。显著的改进证明了所提出的网络设计的有效性。证实了循环策略对两个生成器的优化都有较强的约束和监督作用。最后,我们还展示了使用生成器的共享编码器(全周期DSE)。通过使用共享结构,我们获得了比非共享模型(全周期d)更好的结果,这可能是因为共享模型具有更紧凑的网络结构,因此在有限的训练样本数下更易于优化。

城市景观评价。我们还对城市景观数据集进行了另一次消融研究,结果如表3所示。我们可以观察到不同基线模型的性能增益的类似趋势,正如我们已经在kitti数据集上分析的那样。在这个具有挑战性的数据集上,基线的性能比较进一步证实了该方法的优势。对于模型半周期d和模型全周期d的比较,虽然后者在前两个误差指标上取得了稍差的结果,但在其余六个评价指标上仍有明显的提高。由于此数据集上没有用于深度估计的官方评估协议,因此使用Kitti上的协议评估结果,并在视差图上直接评估结果,因为它们彼此成正比。

4.3.最新技术比较

在表2中,我们将提出的完整模型与几种最先进的方法进行了比较,包括具有监督设置的方法,即saxena等人。[18],Eigen等人。[3],Liu等人[13],Adadepth[9],Kuznietzov等人。[10]和Xu等人[24],以及无监督设置的,即Zhou等人。[29]、Adadepth[9]、Garg等人。[4]和Godard等人[6]。在所有受监督的方法中,我们取得了最具竞争力的性能(即Xu等人。[24]),而我们的训练完全没有监督,没有使用任何地面真实深度数据。与无监督方法相比,我们也非常接近最佳竞争对手(即Godard等人,[6])。adadepth[9]是与我们的方法在技术上最相关的,它考虑了领域适应背景下的对抗性学习和额外的综合训练数据。在有监督和无监督两种情况下,我们的结果都明显优于他们的结果,进一步证明了我们所考虑和提出的方法在对抗性学习策略下进行无监督深度估计的有效性。据我们所知,在城市景观数据集的现有作品中没有定量的结果。

4.3.时间方面的分析

对于整个网络模型的训练,在单个Tesla K80 GPU 上,在 KITTI 数据集上大约需要 45 小时,包含大约 22k 个训练图像。对于运行时间,在我们的512 x 256分辨率的情况下,一个图像的推断大约需要0.140秒,这是一个接近实时的处理速度。

五、总结

在提出的循环生成网络结构中,我们提出了一种新的深度估计任务无监督深度学习方法。新的方法为社区提供了一个新的视角,表明通过立体图像合成的无监督对抗学习可以有效地解决深度估计问题。更具体地说,提出了一个生成性的深度网络模型来学习在标定立体相机设置下预测两个图像视图之间的视差图。设计了两个对称的生成子网络,分别从不同的角度生成图像,并进一步合并形成一个封闭的循环,该循环能够提供强大的约束和监督,从而更好地优化两个子网络的双生成器。在两个公开的数据集(即Kitti和CityScapes)上进行了广泛的实验。结果证明了该模型的有效性,并与kitti数据集上的最新研究结果进行了比较。
未来的工作将包括使用注意机制来指导学习生成器的特征表示,并考虑使用图形模型对输出视差图进行结构化预测,以获得具有更好场景结构的预测。

  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值