AFNet

哈利·波菜

于 2024-07-27 03:16:33 发布

阅读量17

点赞数

本文首次提出基于在噪声位姿等退化场景下的多视角深度估计的鲁棒性基准测试，分析了这些退化的原因以及如何解决这些退化场景，通过提出的自适应融合方法AFNet，充分结合了单视角和多视角深度估计的优势。实验表明，AFNet在非退化场景（位姿，内参等精准）以及退化场景下同时达到了SOTA。

论文标题：Adaptive Fusion of Single-View and Multi-View Depth for Autonomous Driving

论文链接：https://arxiv.org/pdf/2403.07535.pdf

代码链接：https://github.com/Junda24/AFNet/

文章第一作者是来自华中科技大学的博士生程俊达，其他作者来自大疆科技。

1.引言

随着计算机视觉的发展，基于深度学习的单目多视角深度估计已经在多个公开数据集上展现出了卓越的性能，在理想情况下，它比单视角深度估计拥有更高的精度（metric scale）和鲁棒性。但是多视角深度估计的精度高度依赖于相机内参，相机位姿的精度，以及足够的translation来进行三角化获取metric depth。而在实际的自动驾驶应用场景中，通过SLAM获得的位姿以及相机内参是带有噪声的，并且汽车可能会在交通灯处停车或者因掉头而没有足够的translation，这些不可避免的退化场景是无法满足投影原理的，进而极大的影响多视角深度估计的精度。

为了应对退化场景这一挑战，我们提出了单视角和多视角的自适应融合方法AFNet。相比多视角，单视角深度估计更多的是依赖于从训练数据中获取的对场景的语义理解以及透视投影线索，在无纹理区域，以及动态场景会更加鲁棒，并且不依赖于相机位姿，所以对于上述退化场景下是更有优势的。但是由于尺度模糊问题，单视角深度估计的精度是低于多视角深度估计的。

因此我们认为，能不能通过一种融合方式，充分的发挥单视角和多视角深度估计的优势，在保持多视角的高精度的同时，融合获得单视角深度估计在退化场景下的鲁棒性，同时达到精度高鲁棒性好。

因此，我们通过设计基于重投影置信度的自适应融合方法，在不同场景下去自适应选择单视角和多视角深度估计中更可靠的分支，实现了同时在噪声pose以及精准pose下的高精预测，极大的提升了深度估计系统的鲁棒性。

作者的贡献可以总结如下：

我们提出了AFNet来自适应的融合单视角和多视角深度从而获得了更加鲁棒高精的fusion depth，在DDAD和KITTI自动驾驶数据集达到了SOTA。
我们是第一个提出融合单视角和多视角来解决多视角深度估计在噪声pose等退化场景下会fail的，并且提出了一个新的鲁棒性测试benchmark来评估多视角深度估计系统在噪声pose下的性能。我们的方法在鲁棒性测试benchmark上也是达到了SOTA。
我们提出的AF module能够提升多视角深度估计方法在动态物体区域的性能。

2.方法

1.整体结构

AFNet_人工智能