视觉与毫米波雷达融合技术在鸟瞰视图检测中的应用:综述

文章:Vision-RADAR fusion for Robotics BEV Detections: A Survey

作者:Apoorv Singh

编辑:点云PCL

来源:https://arxiv.org/pdf/2302.06643.pdf

欢迎各位加入知识星球,获取PDF论文,欢迎转发朋友圈。文章仅做学术分享,如有侵权联系删文。

公众号致力于点云处理,SLAM,三维视觉,高精地图等领域相关内容的干货分享,欢迎各位加入,有兴趣的可联系dianyunpcl@163.com。未经作者允许请勿转载,欢迎各位同学积极分享和交流。

摘要

由于构建自主机器人感知系统的需求越来越高,传感器融合吸引了众多研究人员和工程师的关注,以充分利用跨模态信息,然而,为了在规模化构建机器人平台,我们需要强调自主机器人平台的启动成本。相机和雷达固有地包含互补的感知信息,具有开发规模化自主机器人平台的潜力。然而,与视觉融合的LiDAR相比,视觉融合毫米波雷达的工作受到了限制。本文通过对BEV物体检测系统的视觉-毫米波雷达融合方法进行调查来填补这一空白,首先,我们浏览背景信息,即物体检测任务、传感器选择、传感器设置、基准数据集和机器人感知系统的评估指标,随后,涵盖了单一模态(相机和毫米波雷达)数据表示,并详细介绍了基于传感器融合技术,包括前期融合、深度融合和后期融合,以便易于理解每种方法的优缺点。最后,提出了可能的视觉-雷达融合未来趋势,以启发未来研究。可以在以下网址上找到经常更新的总结:https://github.com/ApoorvRoboticist/Vision-RADARFusion-BEV-Survey

介绍

相机在BEV预测方面不太好泛化,因为它们接收的输入受到2D像素的限制,然而,它们包含非常丰富的语义和边界信息,毫米波雷达的数据已经包含了输入点云中的3D和速度数据,然而,它缺乏密集的语义信息,因此,相机-雷达传感器组合可以很好地一起工作,但是这些传感器接收到的数据需要映射到一个单一的坐标框架中,它们接收到的输入数据可以在图1中可视化。

c3466ef049f2145d11015288b0af07f9.png

图1. 使用相机、雷达、高精地图和激光雷达数据进行BEV感知,摘自多模态数据集nuScenes。

通过本文,通过涵盖BEV检测和传感器模态背后的基础知识,然后深入研究现代视觉雷达融合技术,更加关注现在流行的基于transformer的方法来填补这个空白。本文组织部分如图2

783da9eb7fe51160abb7755b83401167.png

图2 本文的结构图

A. 目标检测任务 

三维物体检测是机器人/自动驾驶平台的重要任务,目标检测是两个基本计算机视觉问题—分类和定位的组合。目标检测的目标是检测出所有预定义类别的实例,并提供其在图像/BEV空间中的定位与坐标系对齐框框。它通常被视为一个监督学习问题,利用大量标记图像。目标检测任务中的一些关键挑战包括: 

  • 框框的BEV表示:相机图像是透视视图,但下游自主性任务在俯视视图(BEV)中操作,因此,我们需要一种方法将透视信息转换为正交空间BEV。这伴随着深度模糊的固有问题,因为我们正在将一个新的深度维度添加到此问题中。 

  • 丰富的语义信息:有时我们需要区分非常相似的对象,例如密集相邻的多个类似的对象,或者可能是操作滑板车的行人。在后一种情况下,滑板车上的行人应该遵循骑车者的运动模型,但是很难检测到行人的这个属性。为了识别这些细粒度信息,需要在模型中嵌入深层语义。 

  • 效率:随着我们构建更大、更深的网络,我们需要昂贵的计算资源来进行部署时间推理。

  • 域外物体:可以训练网络的类别是有限的,在测试中可能会遇到一些我们在训练时间没有看到过的对象类别,检测器总是缺乏一些泛化能力。

759d8848ffaa84a4a98c369a67a958b0.png

图3. 相机、毫米波雷达和激光雷达的传感器特性,考虑到它们在空间和语境上互补的属性,相机-毫米波雷达融合具有很高的潜力。

B. 传感器选择 

相机和传感器具有互补的特点,这使它们成为强大的感知传感器组合,相机对检测的贡献来自于:丰富的语义信息和精确的边界,相机在融合时间数据或特别是在恶劣天气条件下预测具有准确深度的框方面表现不佳。然而,毫米波雷达弥补了相机的不足,雷达可以利用其点云中的多普勒效应非常精确地预测对象的深度和速度,雷达数据非常稀疏,因此不需要太多的计算负载。雷达的波长比其他激光传感器长,使其成为唯一一个性能不会因恶劣天气条件(例如雨/雪/灰尘等)而下降的感知传感器。这些特性在图3中非常好地总结了[5]。雷达的另一个不太被讨论的问题是其无法检测黑色物体/汽车。毫米波雷达以及实际上任何基于激光的传感器在检测吸收大部分激光的黑色物体/汽车方面都不太好,在这些特殊情况下,相机是可靠的备用传感器。

C. 传感器设置 

自动驾驶车辆(AV)的传感器套件的设置可能因不同的自动驾驶汽车公司而异,每辆车通常需要6-12个摄像机和3-6个雷达传感器,以覆盖整个周围的3D场景,我们只能使用正常的视场角(FOV)摄像机,否则可能会出现无法恢复的图像畸变,如鱼眼相机(宽视场角),其仅适用于几十米的距离。在AV /移动机器人行业中,由于成本原因,相对于激光雷达,生产车辆上的雷达和摄像机一直得到更多的投资。在 nuScenes [4] 中,一个被引用次数最多的自动驾驶汽车空间中的感知传感器设置可以在图4中看到,在这个例子中,我们看到有5个雷达、6个摄像机和仅有1个激光雷达,这些数字也代表其他L3+汽车公司的情况。

89b04c6c1a789fefdc62151c3736abb4.png

图4. nuScenes [4] 传感器设置

D. 基准数据集 

nuScenes [4]、KITTI [9] 和 Waymo Open Dataset (WOD) [10] 是最常用的三个3D BEV 对象检测任务数据集,除此之外,H3D [11]、Lyft L5 [12]、BDD [13]、STF [14] 和 Argoverse [15] 也可用于 BEV 感知任务,这些数据集的详细信息可以在表格 I 中查看。

bd538a917618ba309fe66abefd751ee3.png

主要内容

本节将介绍由相机和雷达返回的原始数据格式以及用于将它们转换为统一的坐标系数据。

A. 相机 

给定V个相机图像,每个图像都有一个外参矩阵k∈R3×4和一个内参矩阵k∈R3×3,我们可以在BEV坐标系中找到特征的栅格化BEV图y∈RC×X×Y,外参和内参矩阵共同定义了从参考坐标(x,y,z)到每个V个相机视角的本地像素坐标(h,w,d)的映射。参见图1,该图显示了自动驾驶汽车的环视图像。

B. 毫米波雷达 

毫米波雷达是机器人中使用的另一组主动传感器,它们发射无线电波来感知环境并测量反射波以确定物体的位置和速度。传感器的原始输出是极坐标,可以通过传感器校准矩阵轻松转换为BEV空间,然而,嘈杂的雷达点必须经过滤波,滤波将利用某种形式的聚类和时间跟踪,这种时间跟踪可以通过卡尔曼滤波器来实现。卡尔曼滤波器是一种递归算法,可以通过获取先前观察到的目标状态估计和当前状态的测量值来估计目标的当前状态,在内部滤波运行后,它们返回BEV中的2D点(没有高度维度),提供方位角和物体的径向距离,它还产生每个2D点的径向速度矢量分量,如[3]所示的Fig.5。

79a50c92ee9c02a643c7524866a1871e.png

图5. [3] 显示了实际速度和径向速度之间的差异。对于目标A,车辆坐标系中的速度和径向速度相同(vA)。对于另一个目标B,雷达报告的径向速度(vr)与车辆坐标系中的目标实际速度(vB)不同。

这里的点可以被视为检测到的物体,在BEV传感器融合研究中,雷达检测被表示为自车坐标系中的3D点,雷达点云中的这个3D点被参数化为P = (x;y;z;vx;vy),其中(x;y;z)是物体的位置,(vx;vy)是物体在x和y方向的径向速度,由于这个径向速度是相对速度,因此需要与自车运动进行补偿,由于雷达点云的高稀疏性,我们通常聚合3-5个时间扫描,这为点云表示添加了一个时间维度,由于在很多方法中,检测头在360°的环绕场景中运行,因此我们将来自车辆周围所有雷达的3D点合并成单个合并的点云, nuScenes[4]数据集提供了将雷达点云从雷达坐标系映射到自车坐标系所需的校准参数。

C 相机毫米波雷达融合

基于在何时融合两种传感器的信息,这些方法可以分为三类:早期融合、后期融合和深度融合,早期和后期融合都只有一个交互操作,处理不同的特征,这个操作要么在模块开始时进行,要么在模块结束时进行,然而,深度融合有更多的不同特征的交互操作,这三种方法可以在图6中轻松概述。

ecf20a6aa6b3191abcf1640d215354c7.png

图6 融合方法示意图

早期融合 

早期融合也被称为数据级别融合。它是三种方法中最少被探索的方法,在这种方法中,来自两个传感器的信息在计算任何特征之前非常早地融合在一起,这种方法面临的一个关键挑战是数据的同步,我们有来自不同坐标空间的相机和雷达数据,而且数据的性质也非常正交,前者是密集的2D像素,后者是稀疏的BEV点云,这种方法具有最小的数据丢失问题,但是没有有效的方法来处理来自相机和雷达的原始数据的聚合复杂性。在这个融合类别中的常见线路是按顺序进行的,在这里,我们首先基于雷达点提取感兴趣区域(ROI),然后在相机上对其进行投影,并使用一些启发式方法在该区域中收集相机特征,就像在[17],[18]中所做的那样,这不是非常可靠的方法,因为关键对象很可能会在雷达点云中被预先过滤掉,并且由于设计的性质,我们甚至不会在图像中寻找这些对象,但是,使用这种方法的附加好处是,我们只对位于ROI内部的图像部分运行卷积操作,从而节省了一些计算预算。

后期融合 

后期融合是三种方法中最简单的,也是过去十年基于相机-毫米波雷达融合的目标检测工作中最常见的方法,根据我们之前的推理,某些物体和属性由相机处理更好,而其他物体和属性由雷达处理更好,该方法允许各自的传感器检测它们最擅长的物体,并使用简单的数据关联技术将两组检测结果融合成一组检测结果[19]。然而,这种方法无法利用一个传感器-检测器中的特征来增强另一个检测器中的特征,例如,相机通常能够很好地检测边界,而雷达能够以很高的置信度检测速度,该流派的工作可以进一步分为两部分:

  1. 基于概率推理的方法:在这种方法中,贝叶斯跟踪方法使用多模态概率密度跟踪多目标物体,它使用组件概率密度近似每个模态,贝叶斯算法和粒子滤波器(PF)处理非线性和非高斯估计,这是一个递归算法,可以递归估计多个目标的状态,并使用最大似然确定当前目标数。具体请参考[20]和[21]的代表性工作。

  2. 卡尔曼滤波器方法:在这种方法中,通过获取之前观察到的目标状态估计和当前状态的测量值来估计目标的当前状态,就像[16]中描述的那样。简单的卡尔曼滤波器无法准确地处理非线性系统。然而,扩展卡尔曼滤波器(EKF)和无迹卡尔曼滤波器(UKF)是更为复杂的系统,可以处理系统中的非线性,EKF将非线性问题线性化,而UKF则采用统计线性化技术通过采样点线性化随机变量的非线性函数,SORT [22]和Deep-SORT [23]是这个类别中的开创性论文。SORT探索了使用匈牙利匹配进行数据关联的多目标跟踪任务,并使用具有卡尔曼滤波器估计的恒定速度运动模型,Deep SORT是对该工作的进一步扩展,其中作者还将外观信息以图像特征的形式添加到算法中,这两种算法都可以轻松地处理。MHT [24]是另一种基于检测的跟踪方法,它维护潜在假设的小列表,可以借助目前可用的准确目标检测器进行处理。后期融合方法可以利用独立开发的模块化组件作为现成的检测算法。但是,依赖于启发式和后处理技术的晚期融合策略在这两个传感器存在分歧时会受到性能可靠性的折衷。

深度学习融合

Deep Fusion也被称为特征级融合,在这种方法中,我们以特征的形式融合两个传感器的信息,因此可以将其视为先前讨论的方法的中间步骤,基于当前的研究工作,这种方法似乎是最具未来前景的方法。这是一种基于学习的方法,其中摄像机和雷达的特征可以并行计算,然后相互软关联,这种方法可以进一步分类为三个部分:

  1. 基于雷达图像生成:为了将雷达信息引入图像域,需要提取雷达特征并将其转换为类似于图像的矩阵信息。这被称为雷达图像。这个雷达图像的通道表示雷达的点表示中的信息,例如物理量距离、速度等等。[25]、[26]、[27]、[28]遵循这条路线,由于雷达点云固有的稀疏性使它们无法很好地形成像图像一样的矩阵,因此这种方法并不成功。

  2. 基于卷积神经网络(CNN):这一工作线路侧重于使用卷积神经网络(CNN)从两种不同的模态进行特征融合,基于CNN的检测器在2年前曾是SOTA,直到transformer开始在空间上下文上做出贡献,在CNN的片段中,代表性的工作之一[29]使用一个基于RentinaNet[30]和VGG主干[31]的神经网络,它使用雷达通道来增强图像。这个模型通过估计2D框使问题更简单,正如[29]的作者所声称的那样,一个雷达点中编码的信息量不同于一个像素中的信息量,因此我们不能简单地将这些不同的信息进行早期融合。更优化的解决方案是在CNN的更深层进行融合,因为这些层中包含更多的压缩信息和相关信息。由于很难抽象出哪个深度是正确的融合深度,作者们设计了一种网络,使其自己学习这种融合策略。这些作者还介绍了一种称为BlackIn[32]的技术,他们在传感器级别而不是神经元级别使用了dropout策略。这有助于更好地利用稀疏的雷达点信息,这些信息可能会被密集的摄像机像素所掩盖。

  3. 基于Transformer的方法:这一方法通常利用Transformer模块,即交叉注意力(cross-attention)来跨模态地交叉关注来自不同模态的特征并形成更精细的特征表示,代表性的工作之一是CRAFT[5],它将图像建议与极坐标系中的雷达点相关联,以有效地处理坐标系和空间属性之间的差异,然后在第二阶段,他们使用连续的基于交叉注意力的特征融合层来在摄像头和雷达之间共享空间上下文信息,截至目前,该论文是排行榜[4]上最优秀的方法之一,MT-DETR是另一种方法,它利用类似的交叉注意力结构来融合跨模态特征。

实验与发展

在文献中,广泛使用nuScenes [4]数据集,其传感器设置如图4所示,包括6个校准相机和5个雷达,覆盖整个360◦场景,在nuScenes的测试集上,基于滤波器的相机-雷达跟踪检测的先驱作品的结果如表II所示,度量缩写的键如下:mAP:平均精度;mATE:平均平移误差;mASE:平均尺度误差;mAOE:平均方向误差;mAVE:平均速度误差;mAAE:平均属性误差;NDS:nuScenes检测分数。

84ad7c0dc6806dbc4886edaca6b5be1e.png

基于最近对多领域BEV感知检测的发展,我们将强调未来研究的可能方向。

  • A. Transformer扩展:从基准数据集的趋势来看,显然,基于Transformer的网络能够建立视觉和雷达数据之间的正确模型,以获得良好的融合特征表示,即使在仅基于视觉的方法中,Transformer也领先于卷积对应方法,如II DETR3D [34]和BEVFormer [35]中所强调的,可以很容易地从雷达点云开始初始化查询,可以添加一个新的交叉注意层以用于雷达成像而不仅仅是交叉关注视觉特征。

  • B. 协作感知:一个相对较新的领域是如何利用多智能体、多模态Transformer实现协作感知,这种设置需要最少的基础设施来实现不同自动驾驶车辆之间的平稳通信,CoBEVT [36]展示了车到车通信如何可以导致更优秀的感知性能,他们在OPV2V [37]基准数据集上测试了他们的性能以进行V2V感知。

总结

对于自动驾驶汽车的感知可靠性,3D目标检测是我们需要解决的关键挑战之一。在本文中,我们首先介绍了背景信息,以了解为什么使用相机和雷达进行BEV目标检测在技术和商业上都是有意义的,然后我们更详细地讨论了相机和雷达输入数据的表示方式,接下来,我们对文献和行业中用于相机-雷达融合的最先进技术进行了分类,以便读者可以轻松跟进,希望我们的工作能够激发未来关于相机-雷达融合用于3D目标检测的研究。

参考文献

[1] T.-Y. Lim, “Radar and camera early fusion for vehicle detection in advanced driver assistance systems,” in arXiv, 2019.

[2] Y. Kim, J. W. Choi, and D. Kum, “Grif net: Gated region of interest fusion network for robust 3d object detection from radar point cloud and monocular image,” in 2020 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), pp. 10857–10864, 2020.

[3] R. Nabati and H. Qi, “Centerfusion: Center-based radar and camera fusion for 3d object detection,” in Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision (WACV), pp. 1527–1536, January 2021.

[4] H. Caesar, V. Bankiti, A. H. Lang, S. Vora, V. E. Liong, Q. Xu, A. Krishnan, Y. Pan, G. Baldan, and O. Beijbom, “nuscenes: A multimodal dataset for autonomous driving,” CoRR, vol. abs/1903.11027, 2019.

[5] Y. Kim, S. Kim, J. W. Choi, and D. Kum, “Craft: Camera-radar 3d object detection with spatio-contextual fusion transformer,” arXiv preprint arXiv:2209.06535, 2022.

[6] K. Huang, B. Shi, X. Li, X. Li, S. Huang, and Y. Li, “Multimodal sensor fusion for auto driving perception: A survey,” CoRR, vol. abs/2202.02703, 2022.

[7] Z. Wei, F. Zhang, S. Chang, Y. Liu, H. Wu, and Z. Feng, “Mmwave radar and vision fusion for object detection for autonomous driving: A review,” CoRR, vol. abs/2108.03004, 2021.

更多详细内容后台发送“知识星球”加入知识星球查看更多。有兴趣分享的朋友,可私信联系邀请成为星球嘉宾。

智驾全栈与3D视觉学习星球:主要针对智能驾驶全栈相关技术,3D/2D视觉技术学习分享的知识星球,将持续进行干货技术分享,知识点总结,代码解惑,最新paper分享,解疑答惑等等。星球邀请各个领域有持续分享能力的大佬加入我们,对入门者进行技术指导,对提问者知无不答。同时,星球将联合各知名企业发布自动驾驶,机器视觉等相关招聘信息和内推机会,创造一个在学习和就业上能够相互分享,互帮互助的技术人才聚集群。

以上内容如有错误请留言评论,欢迎指正交流。如有侵权,请联系删除

扫描二维码

                   关注我们

让我们一起分享一起学习吧!期待有想法,乐于分享的小伙伴加入知识星球注入爱分享的新鲜活力。分享的主题包含但不限于三维视觉,点云,高精地图,自动驾驶,以及机器人等相关的领域。

分享与合作方式:微信“920177957”(备注:姓名+学校/公司+研究方向) 联系邮箱:dianyunpcl@163.com。

点一下“在看”你会更好看耶

4a37114e38bb029090ac2d415d0b6af7.gif

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

点云PCL公众号博客

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值