FSM：Full Surround Monodepth from Multiple Cameras

多目自监督深度估计方法探究

原创

已于 2023-07-30 01:16:30 修改 · 1.5k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习

于 2023-07-29 19:39:24 首次发布

文章介绍了深度估计在3D感知中的重要性，特别是多目自监督深度估计。通过利用多目相机间的视角重叠和位姿信息，建立自监督损失函数，以提高深度估计的准确性。方法包括时空自监督以及多目相机之间的位姿约束，通过损失函数优化位姿和深度估计。实验在KITTI和DDAD数据集上验证了方法的有效性。

参考代码：None

介绍

深度估计任务作为基础环境感知任务，在基础上构建的3D感知才能更加准确，并且泛化能力更强。单目的自监督深度估计已经有MonoDepth、ManyDepth这些经典深度估计模型了，而这篇文章是对多目自监督深度估计进行探索，在单目自监督深度估计基础上利用多目相机之间相互约束构建了多目自监督深度估计方法。具体为，在该方法中每个相机会预测自身深度图和位姿信息，依靠相机之间视角重叠关系、自身运动位姿、深度估计结果构建自监督损失，多目视角的使用主要用于约束各个视角下生成的位姿，而且正是由于使用了外参数使得网络具备了真实距离的感知能力。

方法设计

使用spatial-temporal的自监督深度估计

在单目深度估计任务中依靠不同时序下的成像结果构建光度重构误差，其典型形式为：
$L_p(I_t,\hat{I}_t)=\alpha\frac{1-SSIM(I_t,\hat{I}_t)}{2}+(1-\alpha)||I_t-\hat{I}_t||$
其中， $\hat{I}_t$ 是通过估计出来的位姿和深度估计warp之后得到的，其warp的过程记为：
$\hat{p}^t=\pi(\hat{R}^{t\rightarrow c}\phi(p^t,\hat{d}^t,K)+\hat{t}^{t\rightarrow c},K)$

最低0.47元/天解锁文章