1. 研究问题
现有大多数单目深度估计都是有监督问题,需要获取大量的真实视差图用作训练,而获取真实视差图数据比较困难。
2. 研究方法
提出一个无监督单目视差估计网络,通过最小化图像重建损失生成视差图,并且提出一个新的损失函数,加强左右视差图的一致性,从而提高视差估计的精度。
2.1 将深度估计视作图像重建问题
2.2 深度估计网络
我们的全卷积架构受到 DispNet
[39] 的启发,但具有几个重要的修改,使我们能够在不需要真实视差图的情况下进行训练。
2.3 损失函数
3. 实验结果
4. 结论
(1)本文的模型在KITTI数据集上优于完全监督的单目深度估计基线,而且还可以泛化到新的数据集,生成视觉上合理的视差图。
(2)在 GPU 上预测 512×256 图像的密集深度图仅需 35 毫秒,可以实现实时的深度感知。
5. 局限性
(1)在遮挡边界存在伪影,可以通过学习去除遮挡区域。
(2)该网络在训练时依然需要左右图像,无法使用单幅图像进行训练,目前无法解决。
(3)无法处理高光和透明表面,可以设计更加复杂的相似性度量。
6. 启发
可以利用STN将左图warp到右图,将右图warp到左图。
参考文献
[39] A large dataset to train convolutional networks for disparity, optical flow, and scene flow estimation. CVPR(2016)