RV融合SOTA!Cramnet:射线约束交叉注意力3D检测(Waymo最新)

作者 | 王汝嘉  编辑 | 汽车人

原文链接:https://zhuanlan.zhihu.com/p/576042183

点击下方卡片,关注“自动驾驶之心”公众号

ADAS巨卷干货,即可获取

点击进入→自动驾驶之心技术交流群

后台回复【多传感器融合综述】获取图像/激光雷达/毫米波雷达融合综述等干货资料!

论文:https://arxiv.org/pdf/2210.09267.pdf

作者单位: Waymo

01d581ad6d40f290ebed62f476fa06fe.png

论文思路:

稳健的3D目标检测是安全自动驾驶的关键。相机和雷达传感器是协同作用的,因为它们捕捉互补的信息,并在不同的环境条件下工作良好。然而,由于每个传感器都缺乏沿垂直轴的信息,即摄像机不知道深度,雷达不知道高程,因此融合摄像机和雷达数据具有挑战性。本文提出了摄像机-雷达匹配网络cramnet,这是一种在联合三维空间中融合摄像机和雷达传感器读数的e-cient方法。为了利用雷达距离测量来更好地预测相机深度,本文提出了一种新的射线约束交叉注意机制,该机制解决了相机特征和雷达特征之间几何对应的模糊性。本文的方法支持传感器模态丢失的训练,这形成了鲁棒的三维目标检测,即使当摄像机或雷达传感器在车辆上突然故障时也是如此。本文通过对Radiate数据集的大量实验证明了本文的融合方法的有效性。Radiate数据集是少数几个提供雷达射频图像的大规模数据集之一。在Waymo开放数据集上的单目三维目标检测中,本文的方法的一个仅使用摄像机的变体获得了竞争性的性能。

主要贡献:

  1. 本文提出了一种用于三维目标检测的相机-雷达融合结构,该结构足够灵活,在传感器故障时可以返回到单个传感器模态。

  2. 本文证明了传感器融合模型有效地利用了来自两个传感器的数据,因为模型的性能显著优于仅摄像机和仅雷达的变体。

  3. 本文提出了一种光线约束交叉注意机制,该机制利用雷达的距离测量来改进相机的深度估计,从而提高探测性能。

  4. 为了进一步提高相机-雷达三维目标检测的准确性和鲁棒性,本文在训练过程中引入了传感器的丢失。

  5. 本文在Radiate DataSet上演示了最先进的纯雷达和相机-雷达检测性能[40],在Waymo Open DataSet上展示了竞争性的纯摄像机检测性能[47]。

网络架构设计:

a15573f3cea267e8e7a2ecce869f9131.png

体系结构概述。该方法分为三个阶段:(1a)摄像机二维前景分割和深度估计,(1b)雷达二维前景分割,(2)从二维到三维的投影和后续的点云融合,(3)3D前景点云目标检测。交叉注意机制通过参考雷达特征来修改相机深度估计,如图3所示。模态编码模块将摄像机或雷达二进制代码附加到被馈送到3D阶段的特征上,使传感器能够丢失并增强鲁棒性。本文用蓝色描述摄像机流,用绿色描述雷达流,用红色描述融合流。

本文的模型架构,如图2所示,是受距离稀疏网(RSN)[48]的启发,这是一个基于e-Cient两级激光雷达的目标检测框架。RSN框架接收透视范围图像的输入,分割透视前景像素,使用稀疏卷积提取前景区域的3D(BEV)特征[56],并执行CenterNet风格的[60]检测。本文将该框架用于相机-雷达融合,总体结构可以划分为三个阶段:(1)2D前景分割,(2)2D到3D投影和点云融合,(3)3D前景点云检测

Ray-Constrained Cross-Attentionda3f23694049c34cd01b2ee2075e7575.png

提出的射线约束交叉注意机制解决了相机特征与雷达特征之间几何对应的模糊问题。遵循Transformer[49],本文以相机特征为查询,以雷达特征为键,将3D相机点转换为值。

e3df757b4e3911ccce8c81e5cb5a3a96.png

实验结果:

539be157d1543afd83467382dc433711.png

表2:BEV AP(%)在Radiate DataSet上评估的主要结果[40]。cramnet-c(*表示相机/激光雷达专用标签的评估)、cramnet-r和cramnet分别表示本文的仅相机、仅雷达和融合模型。本文的最终模型比基线更快的R-CNN[40]高出16个百分点,仅有摄像头的变体高出38个百分点,仅有雷达的变体高出6个百分点。这些巨大的收益验证了本文提出的传感器融合模型的正确性。

8f5b95080b0af5b9459641cd52169f3d.png

表3:Cramnet在辐射数据集上的消融研究[40]。左:交叉注意和传感器丢失都比香草融合模型在AP中提高了4到5个点。把它们放在一起产生了性能最好的最终融合模型。右:本文通过将强度阈值设置为0.25或0.5来模拟雷达稀疏信号,分别产生大约70K或2K点。结果,本文的模型性能相对下降了15%-70%。这证实了雷达射频图像包含了三维探测的关键信息。

往期回顾

nuScenes 纯视觉新SOTA!SOLOFusion:时序立体3D检测的新观点和基线

08a621d9f3a52e6563c3e617f2ba7b70.png

自动驾驶之心】全栈技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦目标检测、语义分割、全景分割、实例分割、关键点检测、车道线、目标跟踪、3D目标检测、BEV感知、多传感器融合、SLAM、光流估计、深度估计、轨迹预测、高精地图、规划控制、模型部署落地、自动驾驶仿真测试、硬件配置、AI求职交流等方向;

加入我们:自动驾驶之心技术交流群汇总!

自动驾驶之心【知识星球】

想要了解更多自动驾驶感知(分类、检测、分割、关键点、车道线、3D目标检测、多传感器融合、目标跟踪、光流估计、轨迹预测)、自动驾驶定位建图(SLAM、高精地图)、自动驾驶规划控制、领域技术方案、AI模型部署落地实战、行业动态、岗位发布,欢迎扫描下方二维码,加入自动驾驶之心知识星球(三天内无条件退款),日常分享论文+代码,这里汇聚行业和学术界大佬,前沿技术方向尽在掌握中,期待交流!

0af2f81bff9a5187e3a2cdc38dc40571.jpeg

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值