万字综述 | 自动驾驶多传感器融合感知
00 摘要
多模态融合是自动驾驶系统感知的一个基本任务,最近引起了许多研究者的兴趣。然而,由于原始数据的噪声、信息的未充分利用以及多模态传感器的未对齐,实现相当好的性能并不是一件容易的事情。在本文中,我们对现有的自动驾驶多传感器融合感知方法进行了文献综述。整体上,我们对50多篇论文进行了详细的分析,其中包括使用激光雷达和相机尝试解决目标检测和语义分割任务的方法。与传统的融合模型分类方法不同,我们提出了一种创新的方法,从融合阶段的角度,用一种更合理的分类法将融合模型分为两大类、四小类。此外,我们深入研究了当前的融合方法,重点关注仍然需要解决的问题,并就潜在的研究机会进行了讨论。总之,本文的目的是为自动驾驶感知任务提出一种新的多模态融合方法分类,并引发对未来基于融合技术的思考。
附赠自动驾驶最全的学习资料和量产经验:链接
01 介绍
环境感知是自动驾驶的一个重要模块 [ 26,44,71 ] 。其中包括但不限于2D/3D目标检测、语义分割、深度补全和预测,这些都依赖于安装在车辆上的传感器从环境中采集的原始数据。现有的大多数方法[ 44 ] 分别对LiDAR和相机捕获的点云、图像数据进行感知任务,做出了一些有前景的成果。
然而,仅通过单模态数据的感知会有一定的缺陷 [ 4,26 ] 。例如,相机捕获的数据主要在视野前的较低位置 [ 102 ] ;在更复杂的场景中物体可能会被遮挡,给目标检测和语义分割带来严峻挑战。另外,受限于机械结构,激光雷达在不同距离具有不同的分辨率[ 91 ] ,而且容易受到大雾和暴雨等极端天气的影响 [ 4 ] 。不过这两种模式的数据分开使用时在不同领域表现出色[ 44 ] ,当激光雷达和相机的融合感知时,两者互补在感知任务上可以产生更好的性能 [ 4,76,90 ] 。
最近,用于自动驾驶中的感知任务 [ 15,77,81 ] ,从更高级的跨模态特征表示和不同模态中更可靠的传感器,到更复杂、健壮的深度学习模型和多模态融合技术,发展迅速。但是,只有少数文献综述[ 15,81 ] 专注于多模态融合方法论本身,大多数都遵循一个传统的规则:将它们分为早期融合、深度融合和后期融合三大类,无论是在数据级、特征级还是提案级(Proposal-Level),都侧重于深度学习模型中融合特征的阶段。首先,这种分类法并没有明确定义每个级别的特征表示。其次,它表明两个分支:激光雷达和相机,在处理过程中总是分立的,模糊了对激光雷达提案级(Proposal-Level)特征和相机数据级特征的融合情况 [ 106 ] 。总之,传统的分类法可能很直观,但很粗陋地概括了近年来出现的越来越多的多模态融合方法,而这阻碍了研究者系统性地研究和分析。
在这篇文章中,我们将简要回顾最近关于自动驾驶感知的多传感器融合的论文,并且提出了一种创新的方法,从融合阶段的角度,通过更合理的分类将50多篇相关论文分为两大类和四小类。
这项工作的主要贡献可以总结如下:
-
提出了一种用于自动驾驶感知的多模态融合方法的创新分类法,包括两大类,即强融合和弱融合,以及四个强融合小类,即早期融合、深度融合、后期融合和不对称融合。这些都通过LiDAR和相机的特征表示来明确定义。
-
我们对激光雷达和相机分支的数据格式和表示进行了深入分析,并讨论了它们的不同特征。
-
我们对待解决的问题进行了详细的分析,并介绍了多传感器融合的几个潜在的研究方向,希望对以后的研究工作有所启发。
本文由以下几部分组成:第二部分简要介绍了自动驾驶中的感知任务,包括但不限于目标检测、语义分割,以及一些广泛使用的开放数据集和基准。在第三部分中,我们总结了作为下游模型输入的所有数据格式。与相机类不同,激光雷达类的输入格式可能会有所不同,包括不同的手动设计特征和表示。然后,我们在第四部分中详细描述了融合方法。这是一种创新和清晰的分类法,与传统方法相比,它将当前所有工作分为两大类和四个小类。在第五部分中,我们深入分析了自动驾驶中多传感器融合的一些遗留问题、研究机会和可能的未来工作。第六部分对本文进行了总结。
02 任务和公开竞赛
我们将在本节中首先介绍自动驾驶中常见的感知任务。之后,会介绍一些广泛使用的开放基准数据集。
2.1 多传感器融合感知任务
一般来说,感知任务包括像目标检测、语义分割、深度补全和预测等 [ 26,71 ] 。在这里,我们把前两项任务作为主要的研究领域。此外,它们还包括障碍物检测、交通灯、交通标志和车道或自由空间分割等任务。我们还简要介绍了一些遗留的任务。自动驾驶中的感知任务概述如图所示1。
目标检测
对于自动驾驶而言,了解周围环境是至关重要的。无人驾驶汽车需要检测道路上静止和移动的障碍物,以实现安全驾驶。目标检测是一项传统的计算机视觉任务,广泛应用于自动驾驶系统中 [ 61,108 ] 。研究人员为障碍物检测(汽车、行人、骑车人等)、红绿灯检测、交通标志检测等构建了这样的框架。
一般来说,目标检测使用由参数表示的矩形或立方体来紧密地绑定预定义类别的实例,如汽车或行人,这需要在定位和分类方面都很出色。由于缺乏深度信息,2D目标检测通常简单地表示为(x,y,h,w,c ),而三维目标检测通常表示为(x,y,z,h,w,l,θ,c)。
语义分割
除了目标检测,许多自动驾驶感知任务可以表述为语义分割。例如,自由空间检测 [ 35,57,107 ] 是许多自动驾驶系统的基本模块,自动驾驶系统将地面像素分为可驾驶和不可驾驶部分。一些车道检测 [ 24,84 ] 方法还使用多类语义分割掩码来表示道路上的不同车