本文首次提出基于在噪声位姿等退化场景下的多视角深度估计的鲁棒性基准测试,分析了这些退化的原因以及如何解决这些退化场景,通过提出的自适应融合方法AFNet,充分结合了单视角和多视角深度估计的优势。实验表明,AFNet在非退化场景(位姿,内参等精准)以及退化场景下同时达到了SOTA。
论文标题:Adaptive Fusion of Single-View and Multi-View Depth for Autonomous Driving
论文链接:https://arxiv.org/pdf/2403.07535.pdf
代码链接:https://github.com/Junda24/AFNet/
文章第一作者是来自华中科技大学的博士生程俊达,其他作者来自大疆科技。
1.引言
随着计算机视觉的发展,基于深度学习的单目多视角深度估计已经在多个公开数据集上展现出了卓越的性能,在理想情况下,它比单视角深度估计拥有更高的精度(metric scale)和鲁棒性。但是多视角深度估计的精度高度依赖于相机内参,相机位姿的精度,以及足够的translation来进行三角化获取metric depth。而在实际的自动驾驶应用场景中,通过SLAM获得的位姿以及相机内参是带有噪声的,并且汽车可能会在交通灯处停车或者因掉头而没有足够的translation,这些不可避免的退化场景是无法满足投影原理的,进而极大的影响多视角深度估计的精度。
为了应对退化场景这一挑战,我们提出了单视角和多视角的自适应融合方法AFNet。相比多视角,单视角深度估计更多的是依赖于从训练数据中获取的对场景的语义理解以及透视投影线索,在无纹理区域,以及动态场景会更加鲁棒,并且不依赖于相机位姿,所以对于上述退化场景下是更有优势的。但是由于尺度模糊问题,单视角深度估计的精度是低于多视角深度估计的。
因此我们认为,能不能通过一种融合方式,充分的发挥单视角和多视角深度估计的优势,在保持多视角的高精度的同时,融合获得单视角深度估计在退化场景下的鲁棒性,同时达到精度高鲁棒性好。
因此,我们通过设计基于重投影置信度的自适应融合方法,在不同场景下去自适应选择单视角和多视角深度估计中更可靠的分支,实现了同时在噪声pose以及精准pose下的高精预测,极大的提升了深度估计系统的鲁棒性。
作者的贡献可以总结如下:
- 我们提出了AFNet来自适应的融合单视角和多视角深度从而获得了更加鲁棒高精的fusion depth,在DDAD和KITTI自动驾驶数据集达到了SOTA。
- 我们是第一个提出融合单视角和多视角来解决多视角深度估计在噪声pose等退化场景下会fail的,并且提出了一个新的鲁棒性测试benchmark来评估多视角深度估计系统在噪声pose下的性能。我们的方法在鲁棒性测试benchmark上也是达到了SOTA。
- 我们提出的AF module能够提升多视角深度估计方法在动态物体区域的性能。
2.方法
1.整体结构
2.单视角和多视角分支
3.自适应融合模块
3.实验
1.benchmark performance
当拥有gt pose作为输入时,我们在单目深度估计方法中达到SOTA,并且具有很明显的优势,并且我们实现了精度和效率的优异平衡。
2.动态物体区域表现
我们的AF module能够显著提升多视角深度估计在动态物体区域的表现,如上表所示。
3.Robustness benchmark performance
AFNet在所提出的鲁棒性基准测试中也是显著优于其他sota方法,AFNet随着pose噪声的逐渐增大,仍旧保持较高的精度,拥有最佳的鲁棒性。
4.可视化结果
随着噪声的增大,可以看出其他方法由于噪声而出现明显的噪点甚至完全fail,而我们的AFNet始终保持精准预测,具有更强的抗噪声干扰能力。
多帧点云融合可视化结果,可以看出我们的depth具有很好的多帧一致性以及精准的边缘细节。
4.结论
作者提出了一个单视角,多视角自适应融合的深度估计系统,有效解决了多视角深度估计无法处理退化场景的难题,同时提升了精度和鲁棒性,大量实验证明了该方法的优越性和有效性。