论文笔记-Self-Supervised Monocular Depth Hints

论文信息

  • 论文标题:Self-Supervised Monocular Depth Hints

  • 论文作者:Jamie Watson, Michael Firman, Gabriel J. Brostow, Daniyar Turmukhambetov

  • 研究机构:Niantic; UCL

  • 论文出处:ICCV 2019

  • 引用信息:

    @inproceedings{DBLP:conf/iccv/WatsonFBT19,
      author    = {Jamie Watson and
                   Michael Firman and
                   Gabriel J. Brostow and
                   Daniyar Turmukhambetov},
      title     = {Self-Supervised Monocular Depth Hints},
      booktitle = {2019 {IEEE/CVF} International Conference on Computer Vision, {ICCV}
                   2019, Seoul, Korea (South), October 27 - November 2, 2019},
      pages     = {2162--2171},
      publisher = {{IEEE}},
      year      = {2019},
      url       = {https://doi.org/10.1109/ICCV.2019.00225},
      doi       = {10.1109/ICCV.2019.00225},
      timestamp = {Thu, 05 Mar 2020 13:43:22 +0100},
      biburl    = {https://dblp.org/rec/conf/iccv/WatsonFBT19.bib},
      bibsource = {dblp computer science bibliography, https://dblp.org}
    }
    
  • 代码链接:

论文主要贡献和参考价值

  • 主要贡献:

  • 参考价值:

    论文要点翻译

    • 摘要
      • 单目深度估计可以利用双目数据进行训练,进而避免对大规模高质量的雷达数据或者其他真实标注数据的需求,但是使用双目图像的缺点在于图像的重投影误差可能造成局部最优
      • 这些看起来合理的真实标注数据的替换选项可能限制了网络的学习能力,导致预测的深度图质量有限,典型的例子在于现有的 SOTA 方法经常会在较细的结构中出现深度的不一致估计结构
      • 本文主要研究基于双目数据的自监督深度预测的歧义重投影问题,进而引入深度线索用于避免典型自监督方法存在的局限,深度线索可以和简单的立体匹配算法中提取的深度建议结果互为补充,此外,深度线索的获取不需要额外的数据输入,只需要一些情况正确即可,本文表明使用本文提出的深度线索可以改进现有的深度预测方法
    • 引言
      • 随着基于彩色图像的深度估计方法的精确性的提高,现有的增强现实、机器人和自动驾驶领域都带来新的研究点,像素级的真实标注深度信号的获取需要昂贵的深度传感设备,作为替换选择,可以使用自监督深度估计模型,其中的训练信号是使用双目相机获取的立体图像之间的数据对应关系,在这其中,训练的目的在于将图像的重投影结果与原始图之间的图像光度损失作为最小化目标,这个损失通常就是参考图像和重投影图像之间的差异。深度回归后可以根据相机的内参获取相对姿态,而深度值和姿态其实可以利用视频数据训练联合优化得到
      • 光度距离可以使用 L1 距离或者 L2 距离实现,更复杂的可以使用结构相似性距离等,自监督训练方法的一个主要缺点是找到最优深度的过程非常复杂,因为多个深度值的重投影图像的光度损失可能是比较小的,例如在重复结构或者一致的纹理区域,因此,这些区域训练更为困难,导致预测精度较低
      • 训练基于图像的深度估计模型时,本文提出的深度线索提供模型现有深度预测结果的可选替换,其中,替换选项的重投影质量更好,实际上,只是简单使用本文的深度线索直接作为监督信号即可达到 SOTA 基准线的性能水平
      • 主要贡献:(1)现有的自监督回归方法训练时难于找到全局最优结果;(2)本文的选择训练,使用深度线索作为通用增强,改进现有的自监督学习,使得预测结果更优;深度线索主要来自于同样的双目数据获取的简单的立体匹配估计(例如 OpenCV 的立体匹配结果);(3)使用提出的深度线索,SOTA 模型得到改进,在 KITTI 数据集达到 SOTA 水平
    • 相关工作
      • 自监督深度估计:使用双目立体数据的方法;损失函数的设计;使用单目数据的方法;基于视频帧序列;深度和相机姿态的联合估计
      • 其他监督信号:结合雷达深度;结合合成深度;结合 SLAM 深度;结合语义标签;结合已经估计的深度
    • 背景
      • 单目深度估计训练网络从输入图像 I I I 预测其对应的像素级深度结果 d d d ,在自监督条件下,训练数据是左右图 I l , I r I_l,I_r Il,Ir 和其对应的相机参数 K l , K r K_l,K_r Kl,Kr 以及相对的相机姿态 ( R , t ) (R,t) (R,t),则网络可以训练用于将图像进行重投影之后得到对应的另一个视角的图像 I ~ l = π ( I r , K r , R , t , K , d ) \tilde I_l=\pi(I_r,K_r,R,t,K,d) I~l=π(Ir,Kr,R,t,K,d),因此,预测深度 d i d_i di 所在的像素 i i i 具有颜色值 I ~ l i \tilde I_{li} I~li 。理想情况下,得到的估计结果和原图 I i I_i Ii 的结果对于所有像素 i i i 都是可以完美匹配的
      • 利用双目数据训练时候,上述式子中的参数只有 d d d ,对于单目或者双目视频,除了 d d d 网络还需要预测相机姿态 ( R , t ) (R,t) (R,t),本文不使用姿态线索,因为姿态可以简单看作本文方法很自然的扩展
      • 许多典型的算法现在都是用可微的图像光度一致性损失作为衡量重投影图像质量好坏的结果,本文主要关注 DSSIM+L1 的损失,即为使用的图像光度一致性损失,因此,该损失的计算方式,对于每个像素都有 l r ( d i ) = α 1 − S S I M ( I i , I ~ i ) 2 + ( 1 − α ) ∣ I i − I ~ i ∣ l_r(d_i)=\alpha\frac{1-SSIM(I_i,\tilde I_i)}{2}+(1-\alpha)|I_i-\tilde I_i| lr(di)=α21SSIM(Ii,I~i)+(1α)IiI~i 其中的 SSIM 使用 3x3 像素窗口计算, α \alpha α 设置为 0.85
      • 如果使用监督信号训练,则会将连续深度值的预测结果和雷达采集的结果比对,或者使用 slam 得到的结果做比对,其中主要使用的是 L1、L2 等损失函数,在结合对数、BerHu 等
    • 深度线索的重要性
      • 自监督信号训练的结果中许多细的物体预测结果不佳,主要原因不在于泛化能力差或者是过拟合。主要源自训练集本文,深度图预测的坏点可能是重投影损失函数选择不好,使得损失函数不能对细物体的损失加大惩罚
      • 本文假设:在缺乏标注数据的情况下,网络智能学习到局部最优的结果,无法找到全局最优结果,为了避免该情况,本文提出建立另一种可选的深度值,使得该深度值可以得到更好的重投影结果,本文将这些替换的可选深度预测结果称为深度线索,主要源自噪声估计,可以比现有的网络预测结果达到差不多的精确程度,因此,可以通过迭代训练的方式使得在网络收敛的时候使用这些线索,比起使用监督信号的预测,本文的主要关注点在于使用标准的重投影损失达到最好的结果
    • 方法
      • 本文假设,训练 CNN 时使用的是双目数据,从现有的损失函数出发,本文适应地修改现有的训练过程,只有当估计的深度图比深度线索结果差时使用,深度线索是使用其他双目立体匹配算法得到的结果
      • 使用双目数据训练模型
        • 训练过程中,给网络提供像素级的深度线索,核心思想在于希望利用深度线索给网络提供监督信号使得可以更好的重投影到真实图像中,否则就忽略该线索;具体而言,提出的目标函数不是学习回归有线索的深度值
        • 本文的损失形式化为:当 l r ( h i ) < l r ( d i ) l_r(h_i)\lt lr(d_i) lr(hi)<lr(di) l o u r s ( d i ) = l r ( d i ) + l s log ⁡ L 1 ( d i , h i ) l_{ours}(d_i)=lr(d_i)+l_s^{\log L_1}(d_i,h_i) lours(di)=lr(di)+lslogL1(di,hi) ,否则 l o u r s ( d i ) = l r ( d i ) l_{ours}(d_i)=lr(d_i) lours(di)=lr(di)
      • 深度线索的计算:本文利用双目图像生成深度线索,使用现有的立体匹配算法得到深度线索
      • 双目视频的利用
      • 模型实现
  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值