论文笔记-Real-Time MDE using Synthetic Data with Domain Adaptation via Image Style Transfer

  • 论文信息

    • 标题: Real-Time Monocular Depth Estimation using Synthetic Data with Domain Adaptation via Image Style Transfer
    • 作者:Amir Atapour-Abarghouei (amir.atapour-abarghouei@durham.ac.uk), Toby P. Breckon (toby.breckon@durham.ac.uk)
    • 机构:Durham University, UK
  • 代码链接

    • https://github.com/atapour/monocularDepth-Inference
  • 论文主要贡献

    • 合成场景的深度估计,使用轻量的有跨层链接的神经网络用于估计合成场景数据的深度,并与合成场景深度图进行监督比对训练模型
    • 通过风格转换的 domain adaptation,通过风格转换尽量解决域偏差的问题
    • 提出的网络可以有效用于单目深度估计,能够禅城像素级的精确深度估计结果
    • 算法的可复现性强
  • 论文要点翻译

    • 摘要
      • 基于学习的方法在单目深度估计任务中已经取得较好结果,但是,大部分单目深度估计模型都依赖于大量的真实标注数据,这些数据的实际采集通常是耗时耗力的,如果使用中间的二阶监督信号训练视差图估计网络,得到的结果通常是模糊、有毛刺的
      • 引入合成数据可以一定程度上解决上述问题,然而,合成数据的使用带来了新的问题:domain 的偏差问题,这个问题使得在合成数据上训练的模型难以直接运用到真实数据场景中
      • 图像迁移已经取得较大的进展,通过利用风格迁移,结合最大均值差异的域适应方法,本文可以基于大量的合成场景数据进行模型训练,然后将模型运用到实际场景的深度估计当中
      • 实验结果表明提出的方法可以达到 SOTA 性能
    • 引言
      • 3D 图像已经成为许多计算机视觉应用的必须之物,精确的深度估计是 3D 视觉的核心功能之一,传统的深度估计方法通常基于双目对应关系、移动结构信息、从光影关系推测深度等类似的方法,这些方法通常精确性不高,且计算的复杂性较高,需要较多的专家知识和后处理步骤
      • 解决这些挑战的方法之一就是单目深度估计,过去一段时间,基于单图像的深度估计已经有了显著的进步,监督学习方法利用大量真实标注数据的离线训练使得精确单目深度估计成为可能,但是这些真实标注的数据通常难以采集,且采集结果通常是稀疏的、质量比较差的,使得监督学习方法受到很大的限制
      • 另外的一些非监督的深度估计方法使用二阶监督信号,不需要直接使用真实标注数据,通过预测深度结果然后间接引入其他的一些监督信号进行训练,这些方法虽然解决了对真实数据的依赖问题,但是结果通常是有毛刺的、模糊的、内容上不一致的
      • 一个经常被忽略的事实在于,训练大规模的深度神经网络同样可以通过训练合成数据神经网络来实现,游戏中用来生成真实的图像的方法也可以一同来捕捉同构的合成深度图,虽然已经有一些方法使用合成数据集,但是使用合成数据的一个比较大的挑战就在于 domain adaptation,准确来说,从一个域训练得到的模型可能难以直接运用到其他域,因为不同域之间通常会存在 domain shift 的问题
      • 本文中探索了使用合成场景数据集训练单目深度估计模型的可能性
    • 相关工作
      • 单目深度估计:早期的 MRF 方法,之后的 CNN 方法,利用视角合成的方法,左右一致性检查的方法,视频序列的深度和相机姿态估计的方法等,由于本文使用合成场景数据进行网络训练,训练数据是丰富的,而且不需要二阶监督信号,预测结果是像素级精确的,也没有之前一些方法具有的问题
      • 域适应:主要为了解决域偏差的问题,典型的使用 MMD(最大均值差异)的域适应方法通过计算不同域之间的正则距离,减少域差异;也有的方法使用对抗训练提取域无关的共有的特征表示方法等
      • 图像风格转换
    • 方法
      • 方法分为两个阶段,两个阶段分别在不同模型上实现,(1)在合成场景数据上训练单目深度估计模型(2)由于真实场景数据与合成场景数据不同,架构中需要加上一个从真实场景数据转换为合成场景数据的过程,这个网络主要通过训练一个从合成到真实的图像风格转换网络来实现
      • 阶段1:单目深度估计模型
        • 将单目深度估计作为像素级的图像到图像的映射问题,将RGB图像作为模型的输入,借助 CNN 网络的特征表示能力,将图像转换和预测问题变得可以解决,通过判断预测结果与真实标注数据之间的欧氏距离的关系,可以对网络进行反向传播训练,进而得到精确的深度估计网络模型,然而,由于深度估计本身是一个病态问题,一个RGB图像可能对应不同的深度关系,因此仅仅使用重建 loss 的 l1 或者 l2 loss 可能导致比较模糊的结果
        • 为此本文使用生成对抗模型进行深度估计,GAN 可以捕获样本的语义信息,进而捕获数据的分布规律
        • 损失函数利用 l1 loss 作为重建损失,结合 GAN 中的判别器提供的对抗 Loss 一起进行网络的优化
      • 阶段2:图像风格迁移模型
        • 利用 CycleGAN 中引入的循环一致性损失进行网络的训练,训练不同域之间的转换网络
        • 损失函数主要包括不同域之间的重建 loss、GAN 提供的判别器的对抗 Loss、循环一致 loss 等
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值