超越BEVFormer!CR3DT:RV融合助力3D检测&跟踪新SOTA(ETH)

添加小助理微信AIDriver004,加入近30+自动驾驶技术方向交流群!更多行业咨询与技术分享,欢迎加入『自动驾驶之心知识星球』,国内最大的自动驾驶技术交流社区,你想要的这里都有。

写在前面&笔者的个人理解

本文介绍了一种用于3D目标检测和多目标跟踪的相机-毫米波雷达融合方法(CR3DT)。基于激光雷达的方法已经为这一领域奠定了一个高标准,但是其高算力、高成本的缺陷制约了该方案在自动驾驶领域的发展;基于相机的3D目标检测和跟踪方案由于它的成本较低,也吸引了许多学者的关注,但是检测效果较差。因此,将相机与毫米波雷达融合正在成为一个很有前景的方案。作者在现有的相机框架BEVDet下,融合毫米波雷达的空间和速度信息,结合CC-3DT++跟踪头,显著提高了3D目标检测和跟踪的精度,中和了性能和成本之间的矛盾。

主要贡献

传感器融合架构 提出的CR3DT在BEV编码器的前后均使用中间融合技术来集成毫米波雷达数据;而在跟踪上,采用一种准密集外观嵌入头,使用毫米波雷达的速度估计来进行目标关联。

检测性能评估 CR3DT在nuScenes 3D检测验证集上实现了35.1%的mAP和45.6%的nuScenes检测分数(NDS)。利用雷达数据中包含的丰富的速度信息,与SOTA相机检测器相比,检测器的平均速度误差(mAVE)降低了45.3%。

跟踪性能评估 CR3DT在nuScenes跟踪验证集上的跟踪性能为38.1% AMOTA,与仅使用相机的SOTA跟踪模型相比,AMOTA提高了14.9%,跟踪器中速度信息的明确使用和进一步改进显著减少了约43%IDS的数量。

模型架构

该方法基于BEVDet架构,融合RADAR的空间与速度信息,结合CC-3DT++跟踪头,该头在其数据关联中明确使用了改进的毫米波雷达增强检测器的速度估计,最终实现了3D目标检测和跟踪。

58953f7dcdb54d4bfb9feb7425ee4985.png
图1 整体架构。检测和跟踪分别以浅蓝色和绿色突出显示。

BEV 空间中的传感器融合

如图2所示是聚合到BEV空间以进行融合操作的Radar点云可视化结果,其中的LiDAR点云仅用于可视化对比。该模块采用类似PointPillars的融合方法,包括其中的聚合和连接,BEV网格设置为[-51.2, 51.2],分辨率为0.8,从而得到一个(128×128)的特征网格。将图像特征直接投射到BEV空间中,每个网格单元的通道数是64,继而得到图像BEV特征是(64×128×128);同样的,将Radar的18个维度信息都聚合到每个网格单元中,这其中包括了点的x,y,z坐标,并且不对Radar数据做任何增强。作者认为Radar点云已经包含比LiDAR点云更多的信息,因此得到了Radar BEV特征是(18×128×128)。最后将图像BEV特征(64×128×128)和Radar BEV特征(18×128×128)直接连接起来((64+18)×128×128)作为BEV特征编码层的输入。在后续的消融实验中发现,在维度为(256×128×128)的BEV特征编码层的输出中添加残量连接是有益的,从而使CenterPoint检测头的最终输入大小为((256+18)×128×128)。

1809b14e4473a7f0bb38881e9f67e361.png

图2 聚合到BEV空间进行融合操作的Radar点云可视化

跟踪模块架构

跟踪就是基于运动相关性和视觉特征相似性将两个不同帧的目标关联起来。在训练过程中,通过准密集多元正对比学习获得一维视觉特征嵌入向量,然后在CC-3DT的跟踪阶段同时使用检测和特征嵌入。对数据关联步骤(图1中DA模块)进行了修改,以利用改进的CR3DT位置检测和速度估计。具体如下:

在给定关联矩阵 的贪婪分配下,检测 与 时刻的卡尔曼滤波 的活动轨迹相关联,该关联矩阵由外观嵌入相似矩阵、运动相关矩阵、位置相关矩阵组成:

其中和是标量。将单个轨迹 和检测 所对应的关联矩阵重新定义为:

新的速度相关加权层定义为:

其中, 和 分别表示卡尔曼滤波中单个轨迹状态和单个检测的速度。

实验及结果

基于nuScenes数据集完成,且所有训练均没有使用CBGS。

受限制模型

因为作者整个模型是在一台3090显卡的电脑上进行的,所以称之为受限制模型。该模型的目标检测部分以BEVDet为检测基线,图像编码的backbone是ResNet50,并且将图像的输入设置为(3×256×704),在模型中不使用过去或者未来的时间图像信息,batchsize设置为8。为了缓解Radar数据的稀疏性,使用了五次扫描以增强数据。在融合模型中也没有使用额外的时间信息。

对于目标检测,采用mAP、NDS、mAVE的分数来评估;对于跟踪,使用AMOTA、AMOTP、IDS来评估。

目标检测结果

ae54857389c32c81008b7b7eac242923.png

表1 在nuScenes验证集上的检测结果

表1显示了CR3DT与仅使用相机的基线BEVDet (R50)架构相比的检测性能。很明显,Radar的加入显著提高了检测性能。在小分辨率和时间帧的限制下,与仅使用相机的BEVDet相比,CR3DT成功地实现了5.3%的mAP和7.7%的NDS的改进。但是由于算力的限制,论文中并没有实现高分辨率、合并时间信息等的实验结果。此外在表1中最后一列还给出了推理时间。

cc2b9e04bb285356e865f0f1f31fecf4.png

表2 检测框架的消融实验

在表2中比较了不同的融合架构对于检测指标的影响。这里的融合方法分为两种:第一种是论文中提到的,放弃了z维的体素化和随后的3D卷积,直接将提升的图像特征和纯RADAR数据聚合成柱,从而得到已知的特征尺寸为((64+18)×128×128);另一种是将提升的图像特征和纯RADAR数据体素化为尺寸为0.8×0.8×0.8 m的立方体,从而得到替代特征尺寸为((64+18)×10×128×128),因此需要以3D卷积的形式使用BEV压缩器模块。由表2(a)中可以看到,BEV压缩器数量的增加会导致性能下降,由此可以看到第一种方案表现得更为优越。而从表2(b)中也可以看到,加入了Radar数据的残差块同样能够提升性能,也印证了前面模型架构中提到的,在BEV特征编码层的输出中添加残量连接是有益的。

305751ffd651d13aac5cb81e46ce9066.png

表3 基于基线BEVDet和CR3DT的不同配置在nuScenes验证集上的跟踪结果

表3给出了改进的CC3DT++跟踪模型在nuScenes验证集上的跟踪结果,给出了跟踪器在基线和在CR3DT检测模型上的性能。CR3DT模型使AMOTA的性能在基线上提高了14.9%,而在AMOTP中降低了0.11 m。此外,与基线相比,可以看到IDS降低了约43%。

877dd765082bcc459b06bb61a4e74b26.png

表4 在CR3DT检测骨干上进行了跟踪架构消融实验

主要进行了三个消融实验研究,第一个是对CC-3DT贪婪匹配算法中使用的匹配分数阈值的研究,该阈值与公式(1)中计算的关联矩阵紧密结合(表4(a));其次是探讨了嵌入相关项和运动相关项的不同权重对于跟踪性能的影响(表4(b));最后是为了利用检测器的速度估计,将原始的权衡参数(预测运动方向与观测运动方向在xy平面上的余弦相似度)替换为新的速度相似项(表4(c))。

结论

这项工作提出了一种高效的相机-雷达融合模型——CR3DT,专门用于3D目标检测和多目标跟踪。通过将Radar数据融合到只有相机的BEVDet架构中,并引入CC-3DT++跟踪架构,CR3DT在3D目标检测和跟踪精度方面都有了大幅提高,mAP和AMOTA分别提高了5.35%和14.9%。

相机和毫米波雷达融合的方案,相较于纯LiDAR或者是LiDAR和相机融合的方案,具有低成本的优势,贴近当前自动驾驶汽车的发展。另外毫米波雷达还有在恶劣天气下鲁棒的优势,能够面对多种多样的应用场景,当前比较大的问题就是毫米波雷达点云的稀疏性以及无法检测高度信息。但是随着4D毫米波雷达的不断发展,相信未来相机和毫米波雷达融合的方案会更上一层楼,取得更为优异的成果!

参考

[1] CR3DT: Camera-RADAR Fusion for 3D Detection and Tracking

投稿作者为『自动驾驶之心知识星球』特邀嘉宾,欢迎加入交流!

① 全网独家视频课程

BEV感知、毫米波雷达视觉融合多传感器标定多传感器融合多模态3D目标检测车道线检测轨迹预测在线高精地图世界模型点云3D目标检测目标跟踪Occupancy、cuda与TensorRT模型部署大模型与自动驾驶Nerf语义分割自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习

16322157f38baf0d111ed686c12969e2.png

网页端官网:www.zdjszx.com

② 国内首个自动驾驶学习社区

国内最大最专业,近3000人的交流社区,已得到大多数自动驾驶公司的认可!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案大模型、端到端等,更有行业动态和岗位发布!欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频

c23f300c2130a0b61cef06da39799001.png

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦感知、定位、融合、规控、标定、端到端、仿真、产品经理、自动驾驶开发、自动标注与数据闭环多个方向,目前近60+技术交流群,欢迎加入!

自动驾驶感知:目标检测、语义分割、BEV感知、毫米波雷达视觉融合、激光视觉融合、车道线检测、目标跟踪、Occupancy、深度估计、transformer、大模型、在线地图、点云处理、模型部署、CUDA加速等技术交流群;

多传感器标定:相机在线/离线标定、Lidar-Camera标定、Camera-Radar标定、Camera-IMU标定、多传感器时空同步等技术交流群;

多传感器融合:多传感器后融合技术交流群;

规划控制与预测:规划控制、轨迹预测、避障等技术交流群;

定位建图:视觉SLAM、激光SLAM、多传感器融合SLAM等技术交流群;

三维视觉:三维重建、NeRF、3D Gaussian Splatting技术交流群;

自动驾驶仿真:Carla仿真、Autoware仿真等技术交流群;

自动驾驶开发:自动驾驶开发、ROS等技术交流群;

其它方向:自动标注与数据闭环、产品经理、硬件选型、求职面试、自动驾驶测试等技术交流群;

扫码添加汽车人助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)

ff70de039c4610d867636f981c5fc659.jpeg

④【自动驾驶之心】平台矩阵,欢迎联系我们!67023f451aaf6759731adc3d7c330b18.jpeg

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值