摘要
不需要地面事实进行训练的自监督单眼深度估计近年来引起了人们的关注。设计轻量级但有效的模型,以便它们可以部署在边缘设备上是非常有趣的。许多现有的架构都受益于使用较重的骨干,而牺牲了模型的大小。本文通过一个轻量级的体系结构实现了类似的结果。具体地说,研究了cnn和Transformer的有效组合,并提出了一种称为Lite-Mono的混合结构。提出了一种连续扩展卷积Consecutive Dilated Convolutions(CDC)模块和一个局部-全局特征交互Local-Global Features Interaction(LGFI)模块。前者用于提取丰富的多尺度局部特征,后者利用自注意机制将随机的全局信息编码到特征中。实验表明,Lite-Mono在精度上大大优于MonoDepth2,可训练参数减少了约80%。
引言
- 应用:机器人、自动驾驶(深度线索)
- CNN现况:【10、11、22】回归方法
- self-supervised的好处:GT缺少大量精确密集的深度,自监督近些年开始发展。
- 自监督方法:【5、14、15、41、45】这些方法将深度估计任务作为一种新的视图合成问题,并最小化图像重建损失。
- 立体方法的不足-->使用视频训练(需要位姿):使用立体图像时,摄像机运动是已知的,因此采用单深度估计网络来预测深度。但如果只使用单