超越LiDAR!最新RV融合算法CRN:实时、鲁棒、高效的3D感知(ICLR 2023)

点击下方卡片,关注“自动驾驶之心”公众号

ADAS巨卷干货,即可获取

点击进入→自动驾驶之心【多传感器融合】技术交流群

后台回复【多传感器融合综述】获取图像/激光雷达/毫米波雷达融合综述等干货资料!

摘要

自动驾驶需要一个准确快速的3D感知系统,包括3D目标检测、跟踪和分割。尽管最近基于低成本相机的方法已经显示出有希望的结果,但它们容易受到较差的照明或恶劣天气条件的影响,并且具有较大的定位误差。因此将相机与低成本雷达融合,提供精确的远程测量,并在所有环境中可靠运行是有希望的,但尚未得到彻底研究。本文提出了Camera Radar Net(CRN),这是一种新的相机-雷达融合框架,可以为各种任务生成语义丰富且空间精确的鸟瞰图(BEV)特征图。为了克服图像中缺乏空间信息的问题,论文借助稀疏但准确的雷达点云将透视图图像特征转换为BEV。并使用多模态可变形注意力进一步聚合图像和雷达特征图,该注意力旨在解决输入之间的空间错位问题。具有实时设置的CRN以20 FPS的速度运行,同时在nuScenes上实现了与LiDAR检测器相当的性能,甚至在100米设置下的远距离性能也优于此。此外,离线设置的CRN在nuScenes测试集上产生62.4%的NDS和57.5%的mAP,在所有相机和相机-雷达3D目标检测器中排名第一。

简介

精确和鲁棒的3D感知系统对于自动驾驶和移动机器人等许多应用至关重要。对于高效的3D感知,从传感器输入获得可靠的鸟瞰图(BEV)特征图是必要的,因为各种下游任务可以在BEV空间、BEV分割、轨迹预测和运动规划上操作。将3D感知部署到现实世界的另一个重要因素是建立一个较少依赖激光雷达的系统,该系统因高成本、高维护和低可靠性而处于不利地位。除了激光雷达的缺点外,还需要3D感知系统来识别道路上的语义信息(例如,红绿灯、路标),这些信息可以很容易地被摄像机利用。除了需要丰富的语义信息外,检测远处的物体也是必不可少的,这可以从雷达中受益。

近年来,基于视觉的BEV 3D感知引起了人们的极大关注。得益于密集图像像素中丰富的语义信息,即使在很远的距离上,相机方法也可以区分物体。尽管相机具有优势,但从单目图像中定位物体的准确位置自然是一个具有挑战性的难题。此外,由于无源传感器的性质,相机可能会受到照明条件(例如,眩光、低对比度或低照明)的显著影响。为了解决这一问题,本文的目标是在成本效益高的测距传感器雷达的帮助下,使用相机生成BEV特征图。

雷达不仅在成本上具有优势,而且在高可靠性、远程感知(典型的汽车雷达可达200米)、在各种条件下(如雪、雾或雨)的鲁棒性以及从单个测量提供速度估计方面也具有优势。然而,雷达也带来了一些挑战,如稀疏性(通常在nuScenes中每帧比LiDAR点云少180倍)、噪声和模糊测量(低分辨率、精度或低雷达截面造成的假阴性,以及多路径或杂波造成的假阳性)。因此,以前的相机雷达融合方法使用融合检测级结果的后期融合策略,无法充分利用互补信息,因此性能和操作环境有限。尽管基于学习的融合具有巨大潜力,但只有少数研究探索了自动驾驶场景中的摄像机-雷达融合。

为了利用相机和雷达的上述优缺点,相机-雷达融合应该能够充分利用每个传感器的互补特性。首先,相机特征应该在空间位置上准确地转换到BEV空间。其次当聚合两种模态时,融合方法应该能够处理特征图之间的空间错位。最后但并非最不重要的是,变换和融合应该是自适应的,以便处理有噪声和模糊的雷达测量。

为此,本文设计了一种新的用于BEV特征编码的两阶段融合方法,即Camera Radar Net(CRN)。该方法的关键思想是通过融合相机和雷达传感器的互补特性,生成语义丰富、空间准确的BEV特征图。首先将透视图中的图像特征转换为BEV,不仅依赖于估计的深度,而且使用雷达,称为雷达辅助视图转换(RVT)。由于变换后的图像特征并不完全准确,因此随后的多模态特征聚合(MFA)层使用注意力机制将多模态特征图连续编码为统一的特征图。论文在nuScenes上进行了广泛的实验,并证明本文方法可以生成细粒度的特征图,以在保持高效率的同时,在各种任务上设置新的最先进技术,如图1所示。

aaad131db23290a7ef7e262d8c466b97.png

总结来说,本文的主要贡献如下:

  • 精确的CRN仅使用具有成本效益的相机和雷达就可以在3D目标检测任务上实现激光雷达级的性能。

  • 强健的即使单个传感器输入中的一个完全关闭,CRN也能保持稳健的性能,这允许容错系统。

  • 有效率的CRN需要边际额外成本才能显著提高性能,从而实现实时的远程感知。

相关工作

基于视觉的3D感知:由于在透视图上建立了成熟的2D检测方法,早期的方法通过额外估计物体的深度将2D检测扩展到3D检测,然后变换物体中心。DD3D通过在深度数据集上预训练深度估计任务来提高检测性能。尽管这是一种简单直观的方法,但输入特征空间(透视图,PV)和输出空间(鸟瞰图,BEV)之间的视图差异限制了网络扩展到其他任务。

基于相机的感知的最新进展利用了视图变换。基于几何的方法明确估计了每个图像特征的深度分布,并通过外积进行变换。BEVDepth的经验表明,具有辅助像素深度监督的训练深度分布提高了性能,这与DD3D的结果一致。基于学习的方法使用多层感知器(MLP)或交叉注意力(Li等人,2022 2b)隐式地对PV到BEV的映射函数进行建模。

获得BEV特征图可以很容易地将该框架扩展到在BEV空间上执行的各种下游任务,如3D检测和跟踪、分割和预测。然而,由于图像中缺乏距离信息,仅使用相机的方法定位精度较低,并且对照明或天气条件敏感。此外,使用仅相机的方法实现激光雷达级的性能需要大的图像输入和主干,这是缓慢的,不适用于实时应用。

Camera-Point 3D感知:融合相机图像和测距的互补信息是一个很有前途和活跃的研究课题。然而,两个传感器之间的视图差异被认为是多模态融合的瓶颈。一系列方法通过将3D信息投影到2D图像、proposals或预测结果并收集投影区域周围的信息来处理差异。一些摄像机雷达融合方法(试图通过将雷达点投影到图像上来改进深度估计。

另一方面,另一些的工作将2D图像信息转换为3D。3D检测的早期研究检测2D或2.5D物体proposals,并将其提升到3D空间,与点云数据融合。然而,这种目标级融合很难推广到BEV中的其他任务。由于单目BEV方法的进步,最近的融合方法在统一的BEV空间中提取图像和点特征图,然后通过元素串联或求和来融合特征图,假设多模态特征图在空间上很好地对齐。之后,融合的BEV特征图被用于各种感知任务,例如3D检测或BEV分割。然而,尽管相机(例如,不准确的BEV变换)和雷达(例如,稀疏性和模糊性)具有独特的特性,但以前的相机-雷达融合很少考虑它们。我们提出的CRN专注于融合多模态特征图,充分考虑每个传感器的特性,以实现两全其美。

CAMERA RADAR NET

本文提出了一个相机-雷达融合框架,以在给定多视图图像和雷达点云的情况下产生统一的BEV表示,如图2所示。

4825c3087ddc6b8c950ee2dfa042e2f2.png

准备工作

单目3D方法:单目3D感知的关键是如何从2D特征中构建准确的3D(或BEV)信息,这些特征可以分为两组。基于几何的方法将深度D预测为显式的中间表示,并通过以下方式将透视图中的特征F转换为截头体视图,然后转换为3D :

3aef24b8bef42bb762fc3606d4d6c5c7.png

同时,基于学习的方法利用映射网络隐式地将3D到2D投影建模为:

87a5708026b87af4553758b9e16d703b.png

雷达特性:雷达可以有各种表示(三维张量、点云)。雷达点云与激光雷达有着相似的表现,但它们的特征在分辨率和精度方面有所不同。此外,由于雷达的工作机制及其毫米级波长的性质,雷达测量是有噪声的、模糊的,并且不能提供俯仰角。因此,当物体存在时雷达测量值可能不返回,或者当物体不存在时返回;因此,天真地将激光雷达方法用于雷达在复杂场景下显示出非常有限的性能,如表5和表6中的雷达输入)。本文以自适应的方式利用雷达来处理其稀疏性和模糊性。

RADAR-ASSISTED VIEW TRANSFORMATION

图像特征编码和深度分布:给定一组N个周围图像,论文使用具有特征金字塔网络(FPN)的图像主干,并获得每个图像视图的16x下采样特征图。然后,附加的卷积层进一步提取透视图中每个像素的图像上下文特征和深度分布,遵循LSS:

dbe082931b438b0c3da0c188d9ac8511.png

雷达特征编码和雷达占用:与之前使用估计的深度分布将图像特征直接“提升”到BEV中的方法不同。论文利用有噪声但准确的雷达测量进行视图转换。首先将雷达点投影到N个相机视图上,以在保持其深度的同时找到相应的图像像素,然后将其体素化为相机截头体视图体素。并使用pillar,因为雷达不能提供可靠的高度测量。利用PointNet和稀疏卷积将非空雷达柱编码为特征。类似于等式3,在截头体视图中提取雷达上下文特征和雷达占用概率。这里,卷积应用于俯视图坐标,而不是:

4e3b1a55aaacb13f1b49c6b1cad11dab.png

Frustum视图转换:给定深度分布和雷达占用概率,图像上下文特征图转换为相机截头体视图,如下所示:

e594d109f9c39b5557ecd0bf0168757b.png

由于雷达中没有高度维度,为了节省内存,论文通过沿高度轴求和来collapse图像上下文特征,如图3所示。

cbfb923dbc1e1e70781479d8cbad96dd.png

BEV转换:最后,通过视图转换模块M将N个相机截头体视图中的相机和雷达上下文特征图转换为单个BEV空间:

34ea2d208b39156599e522825ce2e018.png

具体来说,论文采用了CUDA的体素池实现,并对其进行了修改,以使用平均池化而不是求和来聚合每个BEV网格中的特征。它有助于网络预测更一致的特征图,而不考虑到自车的距离,因为由于透视投影,更近的特征网格与更多截头体的网格相关联。

MULTI-MODAL FEATURE AGGREGATION (MFA)

动机如前文所述,在相机-雷达融合中,结合互补的多模态信息,同时避免每种信息的缺点,这一点尤为重要。图像特征具有丰富的语义线索,但其空间位置本身就不准确;另一方面,雷达特征在空间上是准确的,但上下文信息不足且有噪声。天真的方法是按通道串联或求和,但这些方法既不能处理两种模态之间的空间错位,也不能处理两个模态之间的模糊,因此效果较差,如表4所示。为了两全其美,论文融合的关键动机是使用注意力机制,以自适应的方式利用多模态特征。

多模态可变形交叉注意:交叉注意力本质上适合于多模态融合。然而计算成本是输入序列长度的二次方。

给定展平的BEV上下文特征映射,首先将投影到C维查询特征中,然后连接为zq。之后通过多模态可变形交叉注意力将特征图聚合为:

1d0048c9e41a8d3efeaecedfcb94f9a0.png

通过这样做,特征聚合模块可以自适应地受益于图像和雷达,如图4所示。

bcf1d21bae86082c9f1113bc43d6a4a5.png

稀疏聚合:尽管MDCA相对于网格的大小具有线性复杂性,但当感知范围变大时,它仍然可能是一个瓶颈。所提出的稀疏聚合的复杂性现在与感知范围无关,这对于远程感知更有效。

训练目标和任务头

论文使用通过将激光雷达点投影到图像视图中获得的深度图来训练深度分布网络,遵循BEVDepth。论文根据CenterPoint预测无锚和多组头部的中心热力图。对于训练稀疏聚合,当获得GT深度图时,论文过滤3D边界框外的激光雷达点云,并将softmax替换为等式3中的sigmoid。因此,只有包含前景目标的特征网格才具有高概率。

实验

主要结果

为了与以前最先进的3D检测方法进行公平的比较,论文在表1和表2中报告了测试和验证集结果。在各种输入大小和主干设置下,本文的CRN以更快的FPS在所有仅摄像机和摄像机雷达方法中排名第一。作者强调,具有小输入尺寸和骨干(256x704和R50)的CRN在mAP方面已经优于所有具有大输入尺寸和主干的竞争对手(具有512x1408和R101的BEVDepth和SOLOFusion),同时运行速度更快一个数量级,显示了仅使用雷达而非相机方法的有效性。本文的方法也优于激光雷达方法CenterPoint-P,证明了成本效益高的相机和雷达在自动驾驶中取代激光雷达的潜力。

b96d334973228fffc6d8ca6c6c0b66b3.png 7db84d6d80fd22ddbe8f7170294be25f.png

消融实验

论文对验证集进行消融研究。除非另有规定,否则模型使用两帧256x704图像,R50主干,并在没有CBGS的情况下训练24个epoch。为了进行彻底的比较,论文为相机构建了三个基线检测器——BEVDepth、point——CenterPoint和camera point——BEVFusion。

视图转换:在表3中研究了雷达辅助特征变换如何影响性能。由于深度分布固有的低精度,仅依赖于估计的深度的视图变换遭受不准确的定位。如果天真地将深度分布替换为雷达(如果体素内存在雷达点,则为1,否则为0),则性能会严重下降。这是因为由于雷达的模糊性和稀疏性,透视图中的图像特征无法正确转换。使用所提出的RVT,该模型可以受益于密集深度和稀疏距离测量,从而显著提高仅深度变换的性能(+8.2%NDS,+11.6%mAP)。此外论文发现激光雷达输入的性能得到了持续的改善,这表明了RVT的有效性。

7b798b646acd47bb40d13ed1a29492a4.png

功能聚合:表4展示了不同特征聚合方法之间的比较。BEVFusion使用单个卷积层融合BEV中的多模态特征图,该卷积层不是自适应的,并且具有小的感受野(3x3)。简单地添加两个额外的卷积层用于融合,这提供了更大的感受野(7x7)和更大的容量,并不能显著提高性能。另一方面,仅使用MFA已经优于使用RVT的更深层次BEVFusion,这表明了所提出的多模态可变形交叉注意力的有效性。我们发现,RVT在MFA上的性能增益不如BEVFusion显著,因为MFA已经能够处理多模态特征之间的空间错位。

分析

扩大感知范围:表5中将感知范围从51.2米扩展到102.4米,并相应地将评估范围增加了两倍。虽然CenterPoint使用了10次LiDAR扫描,但随着范围的增加,点云变得极为稀疏,因此在远距离时性能会显著降低。另一方面,CRN的性能优于激光雷达,尤其是在30米以上的距离上,FPS要快得多,这表明了相机和雷达在远程感知方面的有效性。此外,具有稀疏聚合的CRN进一步提高了推理速度,同时保持了相当的性能。

2e5c49bfb36ef457db244a890fbacb24.png

鲁棒性:为了系统地分析传感器故障情况的鲁棒性,论文在表6中随机丢弃了图像和雷达输入。为了进行公平的比较,使用单帧输入并固定种子,以确保在实验中可以丢弃相同的视图。作者还通过数据级增强来训练这两种融合方法。当所有模式都可用时,CRN不仅优于BEVFusion,而且在传感器故障情况下保持更高的mAP。考虑到论文在多个阶段(RVT和MFA)使用雷达点云,每个提出的模块都被训练为对稀疏和模糊的雷达点具有鲁棒性。特别是当雷达输入完全关闭时,BEVFusion的性能比BEVDepth(-15.0%)有所下降,而CRN仍然保持着有竞争力的性能(-5.6%)。这一优势来自注意力模块,它可以自适应地选择要使用的模式。

推理时间:论文分析了图5中提出的每个组件的推理时间。在所有分析中,假设前一帧T-1的BEV特征图可以在当前帧T存储和访问,因为在获得BEV特征地图时不使用时间信息(例如,时序双目方法)。这意味着使用多帧只会增加BEV头的耗时。论文的点云编码器和融合模块所需的额外计算可以忽略不计,但在额外耗时下的性能增益是相当大的(256x704和R50设置中,+12.4 NDS的性能增益为+14.9ms)。此外,论文的小输入相机只有在延迟和性能方面都优于大输入相机。作者预计推理优化方法(例如TensorRT)可以进一步减少大模型在长感知范围设置时的延迟,以匹配实时性。

结论

本文提出了一种新的相机-雷达融合方法CRN,用于精确、鲁棒和高效的3D感知。论文的方法有效地克服了每个模态的限制,并融合了多模态信息,以生成上下文丰富且空间准确的场景表示。CRN还适用于实时远程感知,并实现了最先进的性能。

参考

[1] CRN: Camera Radar Net for Accurate, Robust, Efficient 3D Perception

视频课程来了!

自动驾驶之心为大家汇集了毫米波雷达视觉融合、高精地图、BEV感知、传感器标定、传感器部署、自动驾驶协同感知、语义分割、自动驾驶仿真、L4感知、决策规划、轨迹预测等多个方向学习视频,欢迎大家自取(扫码进入学习)

ff0b72f64042b8d7c59d0a2903bb6028.png

(扫码学习最新视频)

国内首个自动驾驶学习社区

近1000人的交流社区,和20+自动驾驶技术栈学习路线,想要了解更多自动驾驶感知(分类、检测、分割、关键点、车道线、3D目标检测、Occpuancy、多传感器融合、目标跟踪、光流估计、轨迹预测)、自动驾驶定位建图(SLAM、高精地图)、自动驾驶规划控制、领域技术方案、AI模型部署落地实战、行业动态、岗位发布,欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频,期待交流!

6784e3eb2d5f885d02c81e52a39ec215.jpeg

自动驾驶之心】全栈技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦目标检测、语义分割、全景分割、实例分割、关键点检测、车道线、目标跟踪、3D目标检测、BEV感知、多传感器融合、SLAM、光流估计、深度估计、轨迹预测、高精地图、NeRF、规划控制、模型部署落地、自动驾驶仿真测试、产品经理、硬件配置、AI求职交流等方向;

fc5a0a729f04039d343f8bf633a7076e.jpeg

添加汽车人助理微信邀请入群

备注:学校/公司+方向+昵称

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值