单目相机的深度估计一直是领域的研究热点,之前的做法普遍是两个CNN分支分别预测pose和depth,然后互相约束。本文的贡献,主要是在没有pose CNN的分支的情况下,完成了pose+depth的预测,同时验证了pose CNN完全是没有必要的。
文章指出,当前(似乎是2017年左右)单目视觉的主要问题就在于 1)未知的相机姿态;2) ambiguity in scale,个人理解的是尺度的问题,物体到底有多大,场景的规模如何,也就是单目视觉中物体的具体3D信息问题。之前的大部分方法,都仅仅是加了一个额外的camera pose estimation的网络,但这并没有充分解决scale的问题。并且文章甚至还指出,这个额外的pose估计网络其实是根本不需要的。因此提出了某种在SLAM领域比较常见的测距方法来进行pose estimation。
本文的主要贡献:1)证明了为什么单目图片中存在ambiguity in scale的问题,也就是训练过程中往往使用的是归一化的深度,而不是具体的深度。借鉴SLAM中直接视觉测距的方式,提出了一种归一化的策略,来解决上述问题。2)因为pose CNN是没有太大意义的,所以直接把DVO整合进文中的框架,提出了一个可微的DDVO模型,文章也是给出了DDVO的三点好处,但是并不是太了解这个模型,所以暂时没有很看懂。
本文希望去做的,就是利用一个网络模型,输入一张图片,直接输出图片的深度图(正常深度,或者拟深度,这两个可以互相转换)。之前的SFM方式,都是通过如下的损失函数来优化模型: