- paper:MonoIndoor: Towards Good Practice of Self-Supervised Monocular Depth Estimation for Indoor Environments (thecvf.com)
- 关键词:室内、尺度学习、位姿残差块、自监督学习。
- over view
Introduction
室内自监督深度估计任务的挑战性:
1、室内数据变化更剧烈,表现在旋转上。因为室外主要是平移运动,旋转较少。因此室内的深度估计在位姿网络估计上需要较高的精度。
2、室内的尺度是不确定的,从一个房间到客厅,最远距离和最近距离都在变化。一些基于室外数据集,如KITTI,根据先验,会把所有深度图的输出约束在一个合理的范围:0.1m-100m。这是因为室外尺度一般是固定的,最远就是天空。网络可以学习到图片帧之间存在一致性的线索。因此室内深度估计要考虑在不同深度尺度的环境下,都能够进行准确的估计。
Method
-
Depth Factorization Module
baseline网络采用monodepth2。depth map不是直接从卷积得到的,而是经过sigmoid以及一个线性尺度恢复的公式:
a和b分别代表从一个预知环境中得到的深度最小值和深度最大值,在KITTI数据集上,a设为0.1,b设为100。
(这里我感觉有点问题。得到最后d的范围是1/101-1/100。原意应该是d的输出控制在0.1-100。那么a应该为10,b为0.01)
采用这样固定参数的方式来恢复最终的尺度,是要基于一个尺度不变的情况。而室内环境,深度值从卫生间到客厅可能变化范围都不一致。因此不适用。
scale net采用self-attention block,然后将attention map与输入的feature map相加。
最后经过两个resnet残差块,以及三个全连接层。得到尺度因子S。估计出来多个尺度因子之后,一开始采用回归的方式拟合,但是发现这样在训练的时候不稳定,于是采用一种似然尺度回归头去估计这种连续值。
-
Residual Pose Estimation Module
为了学习到更加准确的位姿,这篇室内自监督深度估计在位姿网络上也进行了改进。(策略很好,室外的深度估计很少对位姿网络进行优化)。
首先把目标图像和源图像拼接送到posenet,得到一个源图到目标图的位姿。然后利用预测的目标图像深度map,重构目标图像。这时候的重构图像作为中间特征图I*。把I*和目标图像继续送到位姿残差网络中学习,得到中间图到目标图的位姿,最后重构最终的目标图像。该方法采用了残差学习的策略。第一阶段学习到的位姿可能是不准确的,作为一个初始的位姿。经过残差网络继续学习,得到最终的位姿。
Experiments
-
消融实验:
-
定性分析:
-
定量分析