浅谈雷达点云与机器视觉融合的深度学习自动驾驶

本文探讨了自动驾驶中摄像机与激光雷达的融合,利用深度学习处理图像和点云数据,涉及深度完成、目标检测、语义分割、跟踪和在线校准。文章详细分析了各种融合方法及其优缺点,强调了在动态和静态场景下目标识别的重要性。
摘要由CSDN通过智能技术生成

前言

本栏目聚焦于科技前沿,针对自动驾驶目标识别,进行模型分析。近几年自动驾驶车辆快速发展,鉴于复杂且动态的驾驶环境的特性影响,实现完全自主驾驶并非易事。摄像机-激光雷达(Lidar)融合正成为新兴的研究主题,已被各大自动驾驶厂家纳为研究方向。本文致力于探索最近利用图像和点云的基于深度学习的数据融合方法,简要概述图像和点云数据处理的深度学习,深入分析深度完成、目标检测、语义分割、跟踪和在线跨传感器校准等方面的摄像机 - LiDAR 融合方法。

关键词:高速公路、自动驾驶、激光雷达、摄像机视觉、深度学习

01 技术背景

在汽车自动驾驶研究中,外置传感器的技术与成本限制了当前自动驾驶的应用,单摄像头系统无法提供有效的 3D 几何图形,而立体摄像机虽然能够提供 3D 几何图形,但是计算的成本很高,而且会受到环境的遮挡。与相机系统相反,激光雷达(LiDAR)能够提供高精度的 3D 几何形状,且不受环境光的影响,然而 LiDAR 被低分辨率,低刷新率,恶劣天气所限制。将摄像头与 LiDAR 结合的基础上通过使用深度学习算法将摄像头和 LiDAR 的优点相结合。首先摄像头通过将真实世界投影到图像上,而 LiDAR 的点云保留 3D 几何形状,使得无规则的点云和规则的图像相结合,从而进行降本增效。

02多设备融合检测

单相机与激光雷达的融合有三种方式:信号级融合、特征级融合、多层次融合。信号级融合基于一种基于 ResNet 的自编码器网络,为了获得地面真值;同时,一种基于模型的自监督框架被提出,然而这种方法的假设对象是静止的,并且这种方法产生的深度输出是模糊的,输出深度可能无法保留。鉴于特征级融合自动编码器网络优势,该网络可以在在不应用有效性掩码的情况下从稀疏深度图和图像中执行深度补全或语义分割。这种方法可以在深度非常稀疏的情况下获得不错的性能。前人设计了一个可积模块 (PnP) ,利用稀疏深度图来提高现有基于图像的深度预测网络的性能,多层次融合是在图像引导下的深度补全网络中进一步结合信号级融合和特征级融合。

立体相机和激光雷达的融合:与 RGB 图像相比,立体相机的密集深度视差包含了更丰富的地真三维几何信息。激光雷达深度稀疏,但精度更高。这些互补特性使基于立体激光雷达融合的深度完井模型能够产生更精确的致密深度。然而,值得注意的是,立体相机的范围有限,在高遮挡、无纹理的环境中会遇到困难,这使得立体相机不太适合自动驾驶。

03动态目标检测

动态目标检测包括常见的动态道路目标(汽车、行人、骑自行车的人等)。对象检测主要有两种方法:顺序法和一步法。其中顺序法有基于 2D 提案的顺序模型和基于 3D 的顺序模型,基于 2D 提案的序列模型试图在提案阶段利用 2D 图像语义,这利用了现成的图像处理模型。结果导向融合背后的原理是使用现成的 2D 目标检测器来限制 3D 目标检测的 3D 搜索空间,这大大减少了计算量并提高了运行时间。然而,由于整个流水线都依赖于 2D 目标检测器的结果,因此会受到来自图像的检测器的限制。另外一个改进方向是将结果集融合和特征融合将结合的多层次融合,其中一种多层次融合方法是点融合,利用现有的 2D 对象检测器生成 2D 盒,最后,基于 ResNet 和  PointNet 的网络结合图像和点云特征来估计 3D 物体。

3.1  动态 3D 序变模型

构建 3D 序变模型,是直接从 2D 或 3D 数据生成的。基于多视图的方法利用点云的鸟瞰图(BEV)表示来生成 3D。BEV 是首选的视点,因为它避免了遮挡,并保留了物体的方向和平面坐标的原始信息。这些方向和平面坐标信息对于 3D 物体检测至关重要,同时使 BEV 和其他视图之间的坐标转换更加直观。从 BEV 表示生成 3D 提案的原理和最重要的方法之一是 MV3D,MV3D 在像素化的自上而下激光雷达特征图 (高度,密度和强度) 上生成 3D 模型要素,然后将这些候选 3D 要素投影到激光雷达前视图和图像平面上,以提取和融合区域特征进行 bbox 回归。MV3D 方法也有其缺点,在 BEV 上生成 3D 模型时,针对小目标物体在连续卷积过程导致的特征图降采样过程中,小物体实例的空间信息会丢失。最后,以目标为中心的融合通过 roi 池化将图像和点云的特征图结合起来,在此过程中破坏了细粒度的几何信息。

3.2  动态小目标检测

改进对小目标的检测与识别率,聚合视图目标检测网络 (Aggregate View Object detection network, AVOD) 首先利用 BEV 点云和图像的特征映射改进了 MV3D 中的提议阶段。以对象为中心的融合方法中的一个问题,是在 roi 池化过程中丢失了细粒度的几何信息。为了解决这个问题,构建 ContFuse 通过逐点融合处理了这些信息丢失,这种逐点融合是通过连续卷积融合层实现的,该融合层在网络的多个阶段桥梁了不同尺度的图像和点云特征。然而,逐点/逐像素的融合会导致“特征模糊”问题,因此,基于 MVX-Net 提出了两种图像和点云数据的方法,分别是逐点融合和逐体融合,两种方法都使用预训练的 2D CNN 进行图像特征提取,并使用基于体素网的网络从融合点云中估计物体。结合体素化点云和图像的最简单方法是附加 RGB信息作为体素的额外通道。3D  目标检测是通过在体素化点云上滑动 3D 检测窗口来实现的。分类是通过一个 exemplar-svm 的集合来执行的,但是,体素表示会引入边界伪影,破坏细粒度的局部几何,而且图像和体素化点云之间的分辨率不匹配使得融合效率低下。

3.3  2D - 3D 融合分析

单步模型,在单个阶段中执行建议生成和 bbox 回归,2D 和 3D 数据以并行方式处理,通过将候选框和 bbox 回归阶段融合为单步,这些模型往往计算效率更高。这使得它们更适合移动计算平台上的实时应用。LaserNet 可扩展为多任务多模态网络,对融合图像和激光雷达数据进行三维目标检测和三维语义分割。两个 CNN 过程深度图像和前视图图像以并行方式进行融合,并向图像平面投影点来关联对应的图像特征,该特征图被输入到 LaserNet 中,并组合成最终的 3D 方案,这种方法非常高效,同时实现了最先进的性能。

图片

基于融合点云数据+视频图像深度学习事件识别流程图

04 静态道路目标识别

静态道路目标检测可以分为道路目标(如路面和道路标记)和非道路目标(如交通标志)。基于深度学习的道路目标检测方法可以分为基于 BEV 和基于前置摄像头视角。基于 BEV 的方法将激光雷达深度和图像投影到 BEV 进行道路检测,该方法保留了物体的原始平面坐标和方向,使用 CNN 从点云预测密集 BEV 高度估计,然后将其与 BEV 图像融合以进行准确的车道检测,而这种方法无法区分不同的车道类型。因此,一种多阶段融合策略(MSRF)被提出,该策略显著提高了其性能,但是这种方法也增加了计算成本。同时,基于前置摄像头视角的方法将激光雷达深度投影到图像平面,但是这种方法在 2D 到 3D 边界的转换中存在精度损失。在激光雷达扫描中,由于其反射特性,交通标志是高度可识别的,但缺乏密集的纹理使其难以分类,而交通标志图像可以很容易地分类。基于视觉的 TSR 系统很难在三维空间中定位这些交通标志,于是可以将相机和激光雷达同时用于 TSR,采用典型 TSR 融合管道的方法,主要区别在于分类器。这些分类器包括基于深度玻尔兹曼机 (DBMs) 的分层分类器、支持向量机和深度神经网络。综上所述,这些方法都采用了结果级融合和分层对象检测模型,但识别范围基于激光雷达扫描传感器指标。

05多源数据融合分析

针对采集原始数据,需要进行不同类型模型建立及分析,通过语义分析、多目标跟踪、硬件融合校准三方面进行阐述与分析,进而促进摄像机-雷达融合技术进一步满足自动驾驶需求。

5.1  语义分割

语义分割有 2D 语义分割、3D 语义分割和实例分割的摄像机 -LiDAR 融合方法。2D 语义分割的特征级融合是基于 NASNet 的自编码器网络,可用于利用图像和稀疏深度进行 2D 语义分割或深度补全。亦可以采用多阶段不同深度的特征级融合,以促进 2D 语义分割。3D 语义分割的特征级融合是由 3DMV ,一种用于三维语义分割的多视图网络,融合了图像语义和体素化点云中的点特征。这些多视图图像特征在输入到 3Dcnn 进行逐体素语义预测之前,以体素为单位进行最大池化,并与 3D 几何形状融合。但是,基于体素的方法是由体素分辨率决定的,并受到体素边界伪影的阻碍。实例分割旨在联合执行语义分割和目标检测,构建了 3D-sis ,这是一种两阶段 3DCNN ,对多视图图像和 RGB-D 扫描数据执行逐体元的 3D 实例分割。亦可扩展 2D 全景分割,在 RGB 图像和深度图像上共同进行场景重建、3D 语义分割和 3D 实例分割,但是,这种方法不支持动态场景,容易受到长期 post 漂移的影响。3D-BEVIS 框架,该框架使用聚类方法在与 2D 语义聚合的点上联合执行 3D 语义和实例分割任务,这种方法主要受到其对 BEV 语义特征的依赖性的限制,这可能会引入来自传感器的位移遮挡。

5.2  多目标跟踪

多目标跟踪(Multiple object tracking, MOT)旨在保持目标身份,并跨数据帧 (随时间推移) 跟踪其位置,这对于自动驾驶汽车的决策是必不可少的。多目标跟踪算法可分为基于检测的跟踪 (DBT) 和无检测跟踪 (DFT) 框架。基于检测的跟踪(DBT)框架包括两个阶段。在第一阶段,检测感兴趣的目标。第二阶段将这些对象随时间关联起来,并将它们公式化为轨迹,这些轨迹被公式化为线性规划。为了实现端到端学习,检测和匹配是通过深度结构化模型 (DSM) 制定的。构建了一种与传感器无关的框架,该框架采用了一种用于图像和点云融合的损失耦合方案。在无检测跟踪(DFT)中,通过基于过滤的方法手动初始化和跟踪对象。

5.3  硬件融合校准

相机-LiDAR融合管道的先决条件之一是传感器之间完美的配准和校准,传感器之间的校准参数由于机械振动和热波动而不断变化。由于大多数融合方法对校准误差极其敏感,这可能会严重削弱它们的性能和可靠性,所以需要对传感器进行校准。由于离线校准是一个麻烦且耗时的过程,所以在线自动交叉传感器校准的研究具有实际意义。在线交叉传感器校准有经典的在线标定和基于深度学的在线标定。经典在线标定在没有校准目标的自然环境中估计外部参数,但是,该方法对于纹理丰富的环境,大量去标定和由于传感器位移引起的遮挡不具有鲁棒性。为了解决经典在线标定存在的问题,一个实时的CNN (RegNet)来估计外在的参数被提出,它是在随机去校准的数据上训练的。RegNet提取两个平行分支的图像和深度特征,并将它们连接在一起生成融合特征图,但是,RegNet对传感器的内在参数是不可知的,一旦这些内在参数发生变化,就需要重新训练,为了解决RegNet存在的问题CalibNet以一种自我监督的方式学习最小化校准深度和目标深度之间的几何和光度不一致,所以CalibNet可以用于任何内在校准的相机,但是基于深度学习的交叉传感器校准方法需要较高的算力。

06结论

本文针对摄像机-雷达此类自动驾驶传感器感知方式进行了阐述分析,综合分析了在自动驾驶背景下,针对点云和图像融合的深度学习模型的最新进展。并涵盖了深度完成、动态和静态目标检测、语义分割、跟踪以及在线跨传感器校准等主题。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值