室内深度估计MonoIndoor: Towards Good Practice of Self-Supervised Monocular Depth Estimation for Indoor env

Introduction


室内自监督深度估计任务的挑战性:

1、室内数据变化更剧烈,表现在旋转上。因为室外主要是平移运动,旋转较少。因此室内的深度估计在位姿网络估计上需要较高的精度。

2、室内的尺度是不确定的,从一个房间到客厅,最远距离和最近距离都在变化。一些基于室外数据集,如KITTI,根据先验,会把所有深度图的输出约束在一个合理的范围:0.1m-100m。这是因为室外尺度一般是固定的,最远就是天空。网络可以学习到图片帧之间存在一致性的线索。因此室内深度估计要考虑在不同深度尺度的环境下,都能够进行准确的估计。

Method


  • Depth Factorization Module

baseline网络采用monodepth2。depth map不是直接从卷积得到的,而是经过sigmoid以及一个线性尺度恢复的公式:

 

a和b分别代表从一个预知环境中得到的深度最小值和深度最大值,在KITTI数据集上,a设为0.1,b设为100。

(这里我感觉有点问题。得到最后d的范围是1/101-1/100。原意应该是d的输出控制在0.1-100。那么a应该为10,b为0.01)

采用这样固定参数的方式来恢复最终的尺度,是要基于一个尺度不变的情况。而室内环境,深度值从卫生间到客厅可能变化范围都不一致。因此不适用。

scale net采用self-attention block,然后将attention map与输入的feature map相加。

 最后经过两个resnet残差块,以及三个全连接层。得到尺度因子S。估计出来多个尺度因子之后,一开始采用回归的方式拟合,但是发现这样在训练的时候不稳定,于是采用一种似然尺度回归头去估计这种连续值。

  • Residual Pose Estimation Module

为了学习到更加准确的位姿,这篇室内自监督深度估计在位姿网络上也进行了改进。(策略很好,室外的深度估计很少对位姿网络进行优化)。

首先把目标图像和源图像拼接送到posenet,得到一个源图到目标图的位姿。然后利用预测的目标图像深度map,重构目标图像。这时候的重构图像作为中间特征图I*。把I*和目标图像继续送到位姿残差网络中学习,得到中间图到目标图的位姿,最后重构最终的目标图像。该方法采用了残差学习的策略。第一阶段学习到的位姿可能是不准确的,作为一个初始的位姿。经过残差网络继续学习,得到最终的位姿。

Experiments


  • 消融实验:

  • 定性分析:

  • 定量分析

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值