论文笔记-Learning Monocular Depth by Distilling Cross-domain Stereo Networks

  • 论文信息

    • 标题: Learning Monocular Depth by Distilling Cross-domain Stereo Networks
    • 作者:Xiaoyang Guo, Hongsheng Li, Shuai Yi, Jimmy Ren, Xiaogang Wang
    • 机构:商汤科技;香港中文大学
    • 出处:ECCV 2018
  • 代码链接

    • None
  • 论文主要贡献

    • 提出新的单目深度估计方法,利用双目立体匹配网络和合成数据的优势,使用立体匹配作为代理任务,合成到真实的跨域问题得到有效解决
    • 新的监督学习调优方法,基于预训练网络,避免了遮盖区域的问题,改进了圆滑性,实验觉果看起来的视觉效应得到更锐化的边缘信息和更好的遮挡区域结果
    • 提出的模型在无监督和半监督条件下达到 SOTA 性能
  • 论文要点翻译

    • 摘要
      • 单目深度估计利用单张图像作为输入,输出像素级的深度图,已经广泛运用到场景理解、自动驾驶等领域
      • 现有的监督学习方法需要大量的深度标注数据,而这些数据的获取通常是非常困难的;而现有的非监督学习方法精确性有待提高
      • 图形引擎生成的合成数据为数据的数量提供了一个解决方案,但是合成数据与真实数据之间存在的 domain gap 问题使得利用合成场景的数据训练的模型难以直接运用到真实数据中
      • 本文提出使用立体匹配网络作为代理网络,从合成数据学习深度预测,然后使用预测的双目视差图作为单目深度估计网络的监督信号
      • 本文提出的框架使得跨域的合成数据能够得到充分利用,本文使用多种策略保证学习的深度具有良好的感知能力,能够有效泛化到不同域的数据
      • 在 KITTI 数据集上的实验结果表明了本文的单目深度估计方法已经达到了 SOTA 性能
    • 引言
      • 深度估计是重要的计算机视觉任务之一,是三维几何场景理解的基础,可以辅助进行目标检测、跟踪和识别等任务。深度信息的恢复手段是多样的,可以利用立体匹配、SfM 方法、SLAM 系统、光场等恢复深度信息。最近又许多研究利用 DCNN 从单张图像估计深度
      • DCNN 可以将局部和全局的上下文信息用于单张图像的深度估计,这些方法可以分为监督学习和无监督学习方法,基于 DCNN 的监督学习方法通常利用大量真实标注的深度图数据进行网络训练,也可能使用条件随机场等模型优化最终的结果。无监督方法则通常使用图像损失匹配不同视角的图像和基于某个视角合成的图像之间的重建损失。也有一部分方法使用双目立体匹配进行深度估计,或者利用单目的视频序列进行相机姿态和深度的联合估计
      • 现有的单目深度估计方法主要存在以下挑战:(1)监督学习深度估计需要大量的标注数据,深度标注本身费时费力,且得到的结果通常是稀疏的(雷达采集的稀疏结果),结构光深度传感器则无法在强光照条件下工作;(2)非监督学习方法则通常有纹理信息缺乏、重复模式、遮挡区域等问题,仅仅凭借图像损失难以恢复遮挡区域的深度,因为这些区域缺乏跨图像的对应关系
      • 从合成数据学习深度是一个潜在的解决方案,因为合成数据又精确的深度图,但是这隐含的假设条件是合成数据需要与真实数据相似度较高,否则由于 domain gap 的问题,在合成数据上训练的模型在真实场景数据难以保持性能。典型的使用合成数据的例子是在室内合成场景数据训练的模型在室外自动驾驶场景则表现较差,但是在合成自动驾驶场景数据训练的模型则在真实驾驶场景中会又有相对较好的性能。因此,需要建立不同场景的数据之间的对应关系
      • 此外,本文研究发现,SOTA 的立体匹配算法中,立体匹配网络通常在合成数据场景进行预训练,然后再真实场景上进行精调,网络学习的是立体图像之间的匹配关系,而不是高级的语义含义,最近的立体匹配网络也得益于 SceneFlow 这样的合成场景数据集
      • 本文提出新的单目深度估计方法,以双目立体匹配网络作为指导,模型主要分为三个步骤:(1)使用 DispNet 的变种预测视差图和遮挡区域掩膜,在 SceneFlow 上进行模型训练;(2)在真实场景上使用监督学习或者本文提出的新的无监督学习的方式进行模型的精调;(3)使用双目立体匹配网络作为监督信号训练单目深度估计模型
      • 使用立体匹配网络作为代理学习深度主要有以下优势:(1)双目网络可以有效利用合成场景数据,比起学习单目深度,模型更容易适应到新的数据域,合成场景数据不需要针对不同的场景进行单独的设计;(2)立体匹配网络的输入数据可以通过数据增强技巧避免过拟合,而单目深度估计则由于对视角变换的敏感性而无法学习到增强的数据特征,实验结果表明实验使用立体匹配网络结合合成场景数据的模型能够有效指导单目深度估计网络,可以有效预测到清晰的边缘信息和结构信息
    • 相关工作
      • 单目深度估计
      • 双目立体匹配
    • 方法
      • 直接在合成场景训练的模型只能一定程度上解决问题,由于需要大量工作设计不同场景的合成数据,而合成数据本身和真实数据之间存在较大的 domain gap,因此这个模型不能彻底解决问题
      • 由于立体匹配网络学习的是像素级的匹配信息而不是直接从语义特征推到深度信息,因此立体匹配模型能够较好的从合成数据泛化到真实数据,收到这个启发,本文使用新的单目深度估计 Pipeline
      • 网络使用双目立体匹配网络作为代理任务,主要由三个步骤组成:(1)使用合成数据训练立体匹配网络预测遮挡区域和双目图像的视差图;(2)使用真实数据在监督或者无监督条件下对双目立体匹配网络进行调优;(3)对双目立体匹配网络进行蒸馏,得到单目深度估计网络
      • 合成场景的代理双目立体匹配网络训练
        • 直接使用合成数据训练单目深度模型时,由于深度估计对视角敏感,因此结果一般交叉,一般来说,使用专门设置的某个场景的合成数据可以减少 domain gap 的问题,但是双目立体匹配网络中,仅仅使用合成数据训练也可以在其他跨域数据中得到可以接收的视差图预测结果,这说明双目立体匹配网络可以成为两个数据域、两个相关任务之间的桥梁,用于简介从合成数据中进行学习
        • 本文使用 DispNetC 的变体作为代理双目立体匹配网络,使用一维的相关操作提取可能的视差值的像素匹配损失,再使用编码器-解码器结构获取从粗粒度到细粒度的多尺度视差估计结果
        • 和原来的结构不同,本文的立体匹配网络加上了对多尺度遮盖掩膜的预测,使得无监督单目深度估计预测可以避免错误的图像监督信号
        • 遮挡区域掩膜的真实值可以从真实的视差图结合左右视差的一致性得到 M i , j ∗ = 1 ( ∣ D i , j ∗ L − D i , j ∗ w R ∣ ≤ 1 ) M^*_{i,j}=\mathbb{1}(|D^{*L}_{i,j}-D^{*wR}_{i,j}|\le1) Mi,j=1(Di,jLDi,jwR1)
        • 损失定义为 L s t e r e o m = L d i s p + L o c c \mathcal{L}_{stereo}^{m}=\mathcal{L}_{disp}+\mathcal{L}_{occ} Lstereom=Ldisp+Locc
        • L o c c = − 1 N ∑ i , j M i , j ∗ log ⁡ ( M i j ) + ( 1 − M i j ∗ log ⁡ ( 1 − M i j ) ) \mathcal{L}_{occ}=-\frac{1}{N}\sum_{i,j}M^*_{i,j}\log (M_{ij})+(1-M^*_{ij}\log(1-M_{ij})) Locc=N1i,jMi,jlog(Mij)+(1Mijlog(1Mij))
      • 监督和无监督的真实场景数据精调
        • 监督精调 L s t e r e o ( s u p f t ) m = L d i s p \mathcal{L}_{stereo(supft)}^m=\mathcal{L}_{disp} Lstereo(supft)m=Ldisp
        • 无监督精调: L s t e r e o ( u n s u p f t ) m = L p h o t o + γ 1 L a b s + γ 2 L r e l \mathcal{L}_{stereo(unsupft)}^m=\mathcal{L}_{photo}+\gamma_1\mathcal{L}_{abs}+\gamma_2\mathcal{L}_{rel} Lstereo(unsupft)m=Lphoto+γ1Labs+γ2Lrel
        • 图像损失是基于重投影 warp 操作的图像重建损失: L p h o t o = 1 N ∑ i , j M u n ( i , j ) ∣ I i j L − I i j w R ∣ \mathcal{L}_{photo}=\frac{1}{N}\sum_{i,j}M_{un(i,j)}|I_{ij}^L-I_{ij}^{wR}| Lphoto=N1i,jMun(i,j)IijLIijwR
        • 绝对损失: L a b s = 1 N ∑ i , j ( 1 − M u n ( i , j ) + γ 3 ) ∣ D i j L − D u n ( i j ) L ∣ \mathcal{L}_{abs}=\frac{1}{N}\sum_{i,j}(1-M_{un(i,j)}+\gamma_3)|D_{ij}^L-D_{un(ij)}^{L}| Labs=N1i,j(1Mun(i,j)+γ3)DijLDun(ij)L
        • 相对损失: L r e l = 1 N ∑ i , j ∣ ∇ D i , j L − ∇ D u n ( i j ) L ∣ \mathcal{L}_{rel}=\frac{1}{N}\sum_{i,j}|\nabla D_{i,j}^L-\nabla D_{un(ij)}^L| Lrel=N1i,jDi,jLDun(ij)L
      • 蒸馏立体匹配网络
        • 多尺度信息整合
        • L m o n o m = 1 N ∑ i , j ∣ D ~ i j L − D i j L ∣ \mathcal{L}_{mono}^m=\frac{1}{N}\sum_{i,j}|\tilde D_{ij}^L-D_{ij}^L| Lmonom=N1i,jD~ijLDijL
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值