Deep Learning for Image and Point Cloud Fusionin Autonomous Driving: A Review

摘要

在过去几年中,自动驾驶汽车经历了快速发展。然而,由于驾驶环境的复杂性和动态性,实现完全自主并非易事。因此,自动驾驶车辆配备了一套不同的传感器,以确保可靠、准确的环境感知。特别是,相机激光雷达融合正在成为一个新兴的研究主题。然而,到目前为止,还没有关于基于深度学习的相机激光雷达融合方法的评论。为了弥合这一差距并激励未来的研究,本文致力于回顾最近利用图像和点云的基于深度学习的数据融合方法。本文简要概述了图像和点云数据处理的深度学习。随后,深入回顾了摄像机LiDAR融合方法在深度完成、目标检测、语义分割、跟踪和在线跨传感器校准方面的应用,这些方法都是根据各自的融合级别进行组织的。此外,我们在公开可用的数据集上比较了这些方法。最后,我们发现了当前学术研究和实际应用之间的差距和挑战。基于这些观察,我们提供了我们的见解,并指出了有前景的研究方向。

索引术语-相机-激光雷达融合、传感器融合、深度完成、目标检测、语义分割、跟踪、深度学习。

一、 简介

在深度学习和传感器技术方面的突破推动了自动驾驶技术的快速发展提高道路安全、交通效率和个人机动性[1]–[3]。然而,技术挑战和外感测器的成本限制了当前自动驾驶系统在受限和受控环境中的少量应用。一个关键的挑战是实时获得对车辆3D周围环境的足够准确的理解。为此,传感器融合已成为一个新兴的研究主题,它利用具有互补特性的多种传感器来增强感知并降低成本。

特别是,最近的深度学习进展显著提高了相机LiDAR融合算法的性能。相机和激光雷达具有互补的特性,这使得相机-激光雷达融合模型比其他传感器融合配置(雷达相机、激光雷达等)更有效、更受欢迎。更具体地说,基于视觉的感知系统在低成本下实现了令人满意的性能,通常优于人类专家[4]、[5]。然而,单摄像机感知系统无法提供可靠的3D几何结构,这对于自主驾驶至关重要[6],[7]。另一方面,立体相机可以提供3D几何体,但这样做的计算成本很高,并且在高遮挡和无纹理环境中很难实现[8]-[10]。此外,基于摄像头的感知系统在复杂或恶劣的光照条件下难以工作,这限制了其全天候能力[11]。相反,LiDAR可以提供高精度的3D几何体,并且不受环境光的影响。然而,移动LiDAR受到低分辨率(16至128通道)、低刷新率(10Hz)、恶劣天气条件(大雨、雾和雪)和高成本的限制。为了缓解这些挑战,许多工作将这两个互补的传感器结合起来,并证明了与a-modal方法相比具有显著的性能优势。因此,本文重点回顾了当前用于相机激光雷达融合的深度学习融合策略。

相机激光雷达融合不是一件小事。首先,相机通过将真实世界投影到图像平面来记录,而点云保留了三维几何体。此外,在数据结构方面,点云是不规则的、无序的和连续的,而图像是规则的、有序的和离散的。点云和图像之间的这些特征差异导致了不同的特征提取方法。在图1中,比较图像和点之间的特征被显示出来。

以往对多模数据融合深度学习方法的评论[12]、[13]涵盖了广泛的传感器,包括雷达、摄像机、激光雷达、超声波、IMU、里程表、全球导航卫星系统和高清地图。本文只关注相机激光雷达融合,因此能够对各个方法进行更详细的回顾。此外,我们还涵盖了更广泛的与感知相关的主题(深度完成、动态和静态对象检测、语义分割、跟踪和在线跨传感器校准),这些主题是相互关联的,未完全包含在之前的审查中[13]。

本文的贡献总结如下:

•据我们所知,本文是第一篇针对自主驾驶中基于深度学习的图像和点云融合方法的综述,包括深度完成、动态和静态目标检测、语义分割、跟踪和在线跨传感器校准。

•本文根据融合方法对方法进行了组织和回顾。此外,本文还介绍了最新(2014-2020年)的最新相机LiDAR融合方法概述和性能比较

.本文提出了一些被忽视的开放性问题,如开放集检测和传感器无关框架,这些问题对于自主驾驶技术的实际部署至关重要。此外,还总结了开放挑战的趋势和可能的研究方向。

本文首先在第二节中简要概述了图像和点云数据的深度学习方法。第三节至第八节分别介绍了基于激光雷达的相机深度补全、动态目标检测、静态目标检测、语义分割、目标跟踪和在线传感器校准。第七节讨论了趋势、开放的挑战和有希望的方向。最后,第八节给出了总结。图2显示了本次调查的总体结构和相应主题

二、深度学习简介

A.图像卷积

神经网络(CNN)的深度学习是图像处理和理解中最有效、最强大的深度学习模型之一。与多层感知器(Multi-LayerPerceptron,MLP)相比,CNN具有平移不变性,包含的权重较少,并且利用了层次模式,因此它对于图像语义提取非常有效。CNN的隐藏层由卷积层、批处理规范化层、激活层和池层组成,这些层是端到端训练的。这种层次结构通过增加抽象层次和接受域来提取图像特征,从而能够学习高级语义。

B、 点云的深度学习

点云是一组数据点,是激光雷达对检测到的物体表面的测量。从数据结构上看,点云是稀疏的、不规则的、无序的、连续的。点云以3D结构和逐点特征(反射强度、颜色、法线等)对信息进行编码,这对比例、刚性变换和置换是不变的。这些特征使得在点云上提取特征对现有的深度学习模型具有挑战性,需要修改现有模型或开发新模型。因此,本节重点介绍点云处理的常见方法。

1) 基于V olumetric Representation Based:体积表示将点云划分为固定分辨率的3D栅格,其中每个栅格的特征都是手工制作或学习的。该表示法与标准3D卷积[14]–[16]兼容。[17]中提出了几种技术,以减少过度拟合、定向灵敏度和捕捉物体的内部结构。但是,体积表示在体素化过程中会丢失空间分辨率和细粒度3D几何体,从而限制其性能。此外,试图提高其空间分辨率(更密集的体素)会导致计算和内存占用空间立体增长,使其无法缩放。

2) 基于索引树表示:为了缓解高空间分辨率和计算成本之间的限制,提出了利用树状数据结构的自适应分辨率分区方法,如kd树[18]、[19]、八叉树[20]–[22]。通过将点云划分为一系列不平衡的树,可以根据其点密度划分区域。这使得点密度较低的区域具有较低的分辨率,从而减少不必要的计算和内存占用。点特征与预先构建的树结构一起提取。

3) 基于表达的二维视图:通过将点云投影到多个二维视图平面来生成二维视图。这些渲染的多视图图像可以通过标准2D卷积进行处理,这些视图的特征通过视图池层进行聚合[23]。因此,通过将点云转换为图像来解决置换不变性问题,并通过聚合不同视图的特征来实现平移不变性。Qi等人[17]将体积表示与通过球体渲染生成的多视图相结合。遗憾的是,二维视图方法在视图期间会丢失三维几何图形信息

4) 基于图形表示:点云可以表示为图形,类似卷积的操作可以在空间域或光谱域的图形上实现[24]–[26]。对于空间域中的图形卷积,操作由MLP在空间相邻点上执行。谱域图卷积将卷积扩展为通过拉普拉斯谱[27]–[29]对图的谱滤波。

5) 基于点表示:基于点表示的方法使用点云,而不将其转换为中间数据表示。这方面的早期工作使用共享多层感知器(MLP)来处理点云[30]、[31],而最近的工作集中于定义点的特殊卷积运算[32]–[38]。

点云直接学习的先驱作品之一是PointNet[30],[31],它使用独立的T-Net模块来对齐点云和共享的MLP,以处理每个点的特征提取的各个点。PointNet的计算复杂性随着输入数量的增加而线性增加,与基于体积的方法相比,它的可扩展性更强。为了实现置换不变性,点态特征由共享的MLP提取,这些MLP对所有点都是相同的。这些特征通过对称操作(即最大池)聚合,这些操作也是置换不变量。PointNet的特征提取过程定义为:

 其中x代表输入点,h代表逐点特征提取函数(即共享MLP),fsym代表对称函数(即最大轮询),g是我们想要近似的一般函数。

但是,PointNet无法在不同级别提取局部点间几何图形。为了缓解这一挑战,Qi等人[30]通过将点分组为多个集合并在本地应用PointNets,扩展了PointNet以从不同级别提取特征。为了降低PointNet++[30]的计算和内存成本,RandLA Net[39]将随机点采样模块和基于注意力的局部特征聚合模块分层堆叠,以逐步增加感受野,同时保持高效率。

与基于PointNet的方法不同,点之间的空间关系在逐点卷积中明确建模。逐点卷积旨在将标准2D离散卷积推广到连续3D空间。主要挑战是用连续加权函数代替标准卷积中的离散加权滤波器。使用PointConv[40]中的MLP和KPConv[38]和PCNN[33]中的相关函数来近似这个连续权重函数。更具体地说,PCNN[33]将卷积核定义为具有权重的3D点。高斯相关函数采用核点和输入点的坐标,用于计算任意给定3D坐标下的权重矩阵。KPConv[38]遵循这一思想,但使用了线性相关函数。此外,KPConv[38]被分层应用于局部点补丁,类似于标准CNN的概念。输入点x处的一般逐点卷积F∈ 3D连续空间中的R3定义为:

 其中h是每点核函数,它计算给定输入点和核点坐标的加权矩阵。xi和fi是x的第i个相邻点及其相应的特征(强度、颜色等)。Nx是输入点x的所有相邻点,使用KNN或半径邻域确定

三、 DEPTH COMPLETION

DEPTH COM

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值