中文标题:重新设计自监督单目深度感知技术,实现用于自动驾驶的全尺度深度预测
相较于现有自监督方法的四点重要提升:
- 多通道输出表示,用于在驾驶场景中稳定训练深度预测;
- 基于光流的遮罩设计,用于动态物体移除;
- 自蒸馏训练策略,增强训练过程;
- 基于优化的后处理算法,在测试时融合来自视觉里程计的结果。
(论文注意到PoseNet不具备泛化性,并且Monodepth2本质上只能预测一定尺度范围内的深度。论文任务不能相信PoseNet能够产生比定位模块更精确的位姿变化。)笔者也有这样得感觉
方法
Multichannel Output
- 为了保持有机的重建结果,我们选择重新定义输出为多通道输出,以允许在初始化阶段使用更大的深度值,并且在大深度值处避免梯度饱和。
Self-Distillation
- 通过传统的自监督深度估计框架训练一个Teather网络,然后用他引导Student网络在训练初期找到一个合理的方向。
实验
- 用的直接是Kitti中提供的帧间Pose。