深度估计SOTA！自动驾驶单目与环视深度的自适应融合（CVPR'24）

最新推荐文章于 2024-05-16 11:40:21 发布

自动驾驶之心

最新推荐文章于 2024-05-16 11:40:21 发布

阅读量75

点赞数

文章标签：自动驾驶人工智能机器学习

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247594844&idx=3&sn=dc68fc5eadfbaf53811aaae955cfdd4b&chksm=cf0e9184c95b89b2331ad91c9a713b05f67ce48b8f74498a9464ce61a57cc2bcb4e5b629b58d&scene=126&sessionid=0

版权

编辑 | 自动驾驶Daily

点击下方卡片，关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心『深度估计』技术交流群

本文只做学术分享，如有侵权，联系删文

写在前面&个人理解

多视图深度估计在各种基准测试中都取得了较高性能。然而，目前几乎所有的多视图系统都依赖于给定的理想相机姿态，而这在许多现实世界的场景中是不可用的，例如自动驾驶。本工作提出了一种新的鲁棒性基准来评估各种噪声姿态设置下的深度估计系统。令人惊讶的是，发现当前的多视图深度估计方法或单视图和多视图融合方法在给定有噪声的姿态设置时会失败。为了应对这一挑战，这里提出了一种单视图和多视图融合的深度估计系统AFNet，该系统自适应地集成了高置信度的多视图和单视图结果，以实现稳健和准确的深度估计。自适应融合模块通过基于包裹置信度图在两个分支之间动态选择高置信度区域来执行融合。因此，当面对无纹理场景、不准确的校准、动态对象和其他退化或具有挑战性的条件时，系统倾向于选择更可靠的分支。在稳健性测试下，方法优于最先进的多视图和融合方法。此外，在具有挑战性的基准测试中实现了最先进的性能（KITTI和DDAD）。

论文链接：https://arxiv.org/pdf/2403.07535.pdf

论文名称：Adaptive Fusion of Single-View and Multi-View Depth for Autonomous Driving

领域背景

从图像中进行深度估计是计算机视觉中一个长期存在的问题，具有广泛的应用。对于基于视觉的自动驾驶系统来说，感知深度是理解道路物体相关性和建模3D环境地图不可或缺的模块。由于深度神经网络被应用于解决各种视觉问题，因此基于CNN的方法已经主导了各种深度基准！

根据输入格式，主要分为多视角深度估计和单视角深度估计。多视图方法估计深度的假设是，给定正确的深度、相机标定和相机姿态，各个视图的像素应该相似。他们依靠极线几何来三角测量高质量的深度。然而，多视图方法的准确性和鲁棒性在很大程度上取决于相机的几何配置和视图之间的对应匹配。首先，摄像机需要进行足够的平移以进行三角测量。在自动驾驶场景中，自车可能会在红绿灯处停车或在不向前移动的情况下转弯，这会导致三角测量失败。此外，多视图方法存在动态目标和无纹理区域的问题，这些问题在自动驾驶场景中普遍存在。另一个问题是运动车辆上的SLAM姿态优化。在现有的SLAM方法中，噪声是不可避免的，更不用说具有挑战性和不可避免的情况了。例如，一个机器人或自动驾驶汽车可以在不重新校准的情况下部署数年，从而导致姿势嘈杂。相比之下，由于单视图方法依赖于对场景的语义理解和透视投影线索，因此它们对无纹理区域、动态对象更具鲁棒性，而不依赖于相机姿势。然而，由于尺度的模糊性，其性能与多视图方法相比仍有很大差距。在这里，我们倾向于考虑是否可以很好地结合这两种方法的优势，在自动驾驶场景中进行稳健和准确的单目视频深度估计。

AFNet网络结构

AFNet结构如下所示，它由三个部分组成：单视图分支、多视图分支和自适应融合（AF）模块。两个分支共享特征提取网络，并具有自己的预测和置信度图，即、，和，然后由AF模块进行融合，以获得最终准确和稳健的预测，AF模块中的绿色背景表示单视图分支和多视图分支的输出。

损失函数：

单视图和多视图深度模块

AFNet构造了一个多尺度解码器来合并主干特征，并获得深度特征Ds。通过对Ds的前256个通道沿通道维度应用softmax，得到深度概率体积Ps。该特征的最后一个通道用作单视图深度的置信图Ms。最后，通过软加权和来计算单视图深度，如下所示：

多视图分支

多视图分支与单视图分支共享主干，以提取参考图像和源图像的特征。我们采用去卷积将低分辨率特征去卷积为四分之一分辨率，并将它们与用于构建cost volume的初始四分之一特征相结合。通过将源特征wrap到参考相机跟随的假设平面中，形成特征volume。用于不需要太多的鲁棒匹配信息，在计算中保留了特征的通道维度并构建了4D cost volume，然后通过两个3D卷积层将通道数量减少到1。

深度假设的采样方法与单视图分支一致，但采样数量仅为128，然后使用堆叠的2D沙漏网络进行正则化，以获得最终的多视图cost volume。为了补充单视图特征的丰富语义信息和由于成本正则化而丢失的细节，使用残差结构来组合单视图深度特征Ds和cost volume，以获得融合深度特征，如下所示：

自适应融合模块

为了获得最终准确和稳健的预测，设计了AF模块，以自适应地选择两个分支之间最准确的深度作为最终输出，如图2所示。通过三个confidence进行融合映射，其中两个是由两个分支分别生成的置信图Ms和Mm，最关键的一个是通过前向wrapping生成的置信度图Mw，以判断多视图分支的预测是否可靠。

实验结果

DDAD（自动驾驶的密集深度）是一种新的自动驾驶基准，用于在具有挑战性和多样化的城市条件下进行密集深度估计。它由6台同步相机拍摄，并包含高密度激光雷达生成的准确的地GT深度（整个360度视场）。它在单个相机视图中有12650个训练样本和3950个验证样本，其中分辨率为1936×1216。来自6台摄像机的全部数据用于训练和测试。KITTI数据集，提供运动车辆上拍摄的户外场景的立体图像和相应的3D激光scan，分辨率约为1241×376。

DDAD和KITTI上的评测结果对比。请注意，* 标记了使用其开源代码复制的结果，其他报告的数字来自相应的原始论文。

DDAD上方法中每种策略的消融实验结果。Single表示单视图分支预测的结果，Multi-表示多视图分支预测结果，Fuse表示融合结果dfuse。

消融结果的特征提取网络参数共享和提取匹配信息的方法。

参考

[1] Adaptive Fusion of Single-View and Multi-View Depth for Autonomous Driving.

投稿作者为『自动驾驶之心知识星球』特邀嘉宾，欢迎加入交流！

① 全网独家视频课程

BEV感知、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、cuda与TensorRT模型部署、大模型与自动驾驶、Nerf、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频（扫码即可学习）

网页端官网：www.zdjszx.com

② 国内首个自动驾驶学习社区

国内最大最专业，近2700人的交流社区，已得到大多数自动驾驶公司的认可！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型、端到端等，更有行业动态和岗位发布！欢迎扫描下方二维码，加入自动驾驶之心知识星球，这是一个真正有干货的地方，与领域大佬交流入门、学习、工作、跳槽上的各类难题，日常分享论文+代码+视频

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区，聚焦2D/3D目标检测、语义分割、车道线检测、目标跟踪、BEV感知、多模态感知、Occupancy、多传感器融合、transformer、大模型、在线地图、点云处理、端到端自动驾驶、SLAM与高精地图、深度估计、轨迹预测、NeRF、Gaussian Splatting、规划控制、模型部署落地、cuda加速、自动驾驶仿真测试、产品经理、硬件配置、AI求职交流等方向。扫码添加汽车人助理微信邀请入群，备注：学校/公司+方向+昵称（快速入群方式）

④【自动驾驶之心】平台矩阵，欢迎联系我们！

自动驾驶之心

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
深度估计SOTA！自动驾驶单目与环视深度的自适应融合（CVPR'24）

编辑| 自动驾驶Daily点击下方卡片，关注“自动驾驶之心”公众号戳我-> 领取自动驾驶近15个方向学习路线>>点击进入→自动驾驶之心『深度估计』技术交流群本文只做学术分享，如有侵权，联系删文写在前面&个人理解多视图深度估计在各种基准测试中都取得了较高性能。然而，目前几乎所有的多视图系统都依赖于给定的理想相机姿态，而这在许多现实世界的场景中是不可用的，例如自动驾驶。本...
复制链接

扫一扫