3D全景分割新SOTA!LCPS:首篇LiDAR-Camera融合框架(ICCV23)

点击下方卡片,关注“自动驾驶之心”公众号

ADAS巨卷干货,即可获取

今天自动驾驶之心很荣幸邀请到Zhiwei Zhang来分享ICCV 2023最新中稿的激光雷达-相机全景分割的算法—LCPS,如果您有相关工作需要分享,请在文末联系我们!

>>点击进入→自动驾驶之心【分割】技术交流群

论文作者 | Zhiwei Zhang

编辑 | 自动驾驶之心

大家好我是Zhiwei Zhang,很荣幸受邀来自动驾驶之心平台分享我们ICCV2023最新中稿的激光雷达-相机3D全景分割算法!

229f1a6e9ea05727a16f358912ed3c89.png

1. 任务简述

3D场景感知已经成为广泛应用在自动驾驶和机器人导航领域。3D全景分割是一项综合任务,需要同时进行语义分割和实例分割。目前主流的方法仅使用激光雷达数据,但图像数据可以提供丰富的纹理、颜色和区分信息来补充激光雷达信息。这启发我们使用图像作为额外输入以提高场景理解,而且自动驾驶系统通常配备RGB摄像头,这使得激光雷达-摄像头融合来进行全景分割更加可行。

9209023e00aa8305bfbe737c613206aa.png

图1 激光雷达点云与图像的区别。(a) 点云中的一个车辆段(橙色点),(b) 右下角绿色掩码显示使用“两阶段概率检测”方法有效检测到的车辆特征和密集的纹理、颜色特征,(b) 左上角蓝色掩码(部分遮挡)显示辅助检测远处小目标的图像特征。

2. 方法

目前,领先的3D全景分割方法仅使用激光雷达数据作为输入源。但是,我们观察到仅用激光雷达数据进行感知存在一些不足:1) 激光雷达点云通常稀疏且分布不均匀,如图1(a)所示,这使得3D网络很难捕获前景和背景之间的显著差异;2) 占用很少点的远处目标在视野中出现很小,不能有效检测到。

虽然激光雷达传感器和摄像头可以互补,但它们的融合策略仍然具有挑战性。现有的融合策略通常可以分为方案级融合、结果级融合和点级融合。然而,方案级融合和结果级融合侧重于集成2D和3D方案(或边界框结果)进行目标检测,这限制了它们在像分割任务这样的密集预测中的泛化能力。点级融合方法也存在问题:1) 激光雷达和摄像头传感器之间的不同工作频率没有考虑到,这可能导致特征对应关系错配;2) 点级融合是一对一的融合机制,大量图像区域无法映射到稀疏的激光雷达点,导致丰富的密集像素特征被浪费;例如,对于32线激光雷达,只有约5%的像素可以映射到相关点,而95%的像素特征会被丢弃。3) 点级融合方法通常使用简单的串联,这将排除投影落在图像平面之外的点,因为图像特征无法支持它们。

为了解决上述问题,我们提出了第一个激光雷达-摄像头全景分割网络LCPS。我们的方法在三个阶段进行激光雷达-摄像头融合:1)异步补偿像素对齐模块校准由传感器异步引起的坐标错位;2)语义感知区域对齐模块将一对一的点-像素映射扩展为一对多的语义关系;3)点云到体素特征传播模块整合几何和语义信息到全部点云。

实验表明,我们的方法以5.1%的PQ(79.8%对74.7%)超过了当前最好的Panoptic-PHNet在验证集上的表现。我们还证明了我们的融合策略的健壮性和有效性。

3. 方法详解

3.1. 概述

问题定义

我们将一组激光雷达点表示为,,,其中、和分别表示总点数、3D位置和维点特征。这个任务需要为每个点预测唯一的语义类,并准确识别点组作为前景目标,用实例ID表示为。

此外,我们假设周围的个摄像头捕获与激光雷达帧相关的图像用于激光雷达-摄像头融合。这些相机便宜且常用。类似地,我们将每个图像表示为一组像素,,,,,,,,,其中、、和分别表示总像素数、2D位置、像素特征和摄像头索引。本文的主要目标是通过充分探索激光雷达和摄像机传感器中的互补信息来提高全景分割性能。

e700c7f198cb92551984666de082692d.png

图2 我们的激光雷达-摄像头全景分割网络(LCPS)的总体流程。LCPS由多模态编码、特征融合和全景预测模块组成。编码模块提取圆柱特征、MLP特征和图像特征。在融合阶段,MLP特征在ACPA和SARA的作用下与像素特征进行几何和语义对齐。接下来,PVP模块将融合的点特征与原始圆柱特征合并以获得融合特征。最后,全景预测模块输出四个头的预测,经后处理获得全景分割结果。

流程架构

我们的框架由多模态编码模块、激光雷达-摄像头特征融合模块和全景预测模块组成。在编码阶段,激光雷达点分别由圆柱体素编码器和MLP编码器编码,而图像由SwiftNet 编码。在融合阶段,MLP特征和图像特征首先通过拟议的异步补偿和语义感知区域对齐进行对齐,然后被串联成融合的点特征。随后,我们的点到体素传播模块(PVP)接受融合的点特征,并输出最终的圆柱表示。在预测阶段,骨干网络包括拟议的FOG头、语义分割头、热力图头和偏移头。后两个头遵循Panoptic-Polarnet ,其中我们回归一个二值对象中心掩模和BEV网格之间的2D偏移量。在推理期间,后处理将预测的前景BEV网格移位到其最近的中心,并将网格内的点集群到实例中。

3.2. 异步补偿像素对齐

将激光雷达和摄像机直接建立点与像素的映射,这样点就可以直接投影到图像平面并附上像素特征,这是一个直接的解决方案。但是,这种映射会由于摄像头和激光雷达传感器之间的异步频率导致错误映射。例如,在NuScenes数据集上,每个摄像头的操作频率为12Hz,而激光雷达传感器的操作频率为20Hz。

我们通过加入额外的异步补偿来改进点级融合,以实现一致的几何对齐。基本思想是将激光雷达点变换到对应图像捕获时的新的3D坐标系中。变换矩阵是通过考虑自主车辆的运动矩阵获得的。具体地,令和分别表示捕获激光雷达点云和相关图像的时间。然后我们有:

步骤1. 将激光雷达点从世界坐标变换到时的自主车辆坐标。将数据集提供的坐标变换矩阵乘以,我们可以获得自主车辆坐标系统下3D位置,表示为。

步骤2. 将自主车辆坐标下从时刻的激光雷达点变换到时刻。要实现这一点,需要一个时间变化的变换矩阵,表示为。但是,这样的矩阵通常在数据集中不直接可获得。相反,自主车辆从当前帧到第一帧的运动矩阵通常被提供给每个分割序列。因此,我们可以将分解为和的乘积,其中是第一帧的时间。使用这个自主运动变换矩阵,我们获得时刻自主车辆坐标下的点位置,表示为。

步骤3. 获得时刻的像素特征。通过使用相机外参和内参矩阵(和),我们得到每个点在第k个图像平面中的投影2D位置,。排除投影在图像平面之外的点后,得到的像素特征 ,由,索引。是图像平面内的点数()。

这些齐次变换步骤可以总结为以下方程:

c8a9b3442c67d3eaa13011d37919bfd2.png

总之,我们使用方程1为每个点获得像素对齐特征。我们的方法采用步骤2中的自运动补偿,实现了一个简单但更准确的几何一致特征对齐。

44a996f8b0fa7fe96b97d386f1b53cd5.png

图3 (a) SARA模块概述,其采用逐像素语义分类器,构建CAMs并定位语义区域,(b) PVP模块概述,其涉及融合点特征的圆柱划分和注意力传播。

3.3. 语义感知区域对齐

由于激光雷达点云的稀疏性和有限的视野,只有一小部分图像特征可以与激光雷达点匹配。为解决这个问题,我们提出找到语义相关区域,将一对一映射扩展为一对多关系。我们通过使用图像CAM定位相关语义区域,提出语义感知区域对齐模块,如图3(a)所示。

步骤1. 我们首先在图像分支中引入像素级语义分类器以学习图像分支中的语义信息,并将分类器参数定义为,其中是语义类别数。基于投影像素与匹配点共享相同的语义类别这一观察,我们使用点标签监督图像分类器,其损失函数为交叉熵损失:

4986ab309489fccb66e168b839c3df5d.png

其中和分别表示预测的像素标签和相关的真值点标签(这样的对齐在3.2节中获得)。表示可以投影到第k个图像平面的点数。

步骤2. 我们用这个分类器生成类激活图(CAM)。令为最后一层卷积层提取的图像特征图,其中和 是图像特征图的高度和宽度。然后我们可以用以下公式获得CAM:

332c64811d35a34fa4e983c382043dc8.png

其中表示矩阵乘法。生成的CAM用表示。CAM中的每个通道是一个与特定语义类别相关的的热力图。

步骤3. 对于每个激光雷达点,我们使用生成的CAM定位一组像素作为语义相关的图像区域。我们设计一个过滤门,,它是通过根据真值或预测的像素标签从CAM 中选择单个类别的热力图构建的。门是通过减去预定义的置信度阈值来控制的。低于该阈值的像素在,中会被设置为零。最后,我们得到一组相关像素:

ba861b58e156c685fe0895bb3d6d47cc.png

其中表示逐元素乘法,表示激活函数。Flatten函数采用将特征从矩阵格式转换为的集合格式,后续丢弃由,过滤的零向量。因此,我们为每个激光雷达点和每个摄像头获得一组像素特征,。

最后,我们对区域特征集进行平均以获得单个向量,然后将其与MLP输出和像素对齐特征连接以构成融合的点特征。总之,与几何投影的一对一像素对齐不同,图像区域是以一对多的语义感知方式直接收集的。

3.4. 点云到体素特征传播

图像特征不支持摄像机视锥体之外的点;因此,这些点通常被排除。为了解决这个问题,我们提出点到体素特征传播模块,以便为整个点云整合几何和语义信息。为此,我们选择圆柱体素作为桥梁来完成融合过程,因为体素表示的张量形状与点数的改变不变,这自然地在原始点云和图像相关的点云子集之间提供了对齐。

如图3(b)所示,圆柱编码器首先将原始点云编码为体素。同时,对于融合的点特征,我们首先用MLP将它们的通道维度与原始体素对齐,然后将这些融合点划分到另一组圆柱体素中,其中特征将在同一体素内散射和汇聚以获得体素特征。一个显著的观察是,一个激光雷达点可能与多个摄像头对齐,导致该点的多个融合点特征。因此,在体素化过程中,我们将这些多个特征视为具有相同3D位置的多个点。然后,我们使用修改后的局部注意力将融合点特征的体素(表示为)传播到原始圆柱体素(表示为)。在该注意力机制中,每个体素充当查询Q,而邻近的27个 体素充当键K和值V。然后计算公式为:

3352e61336e4b81b112d8f8edd7c9b6e.png

其中是通道维数。之后,我们将注意力体素与原始相加以构建残差连接,如下所示:

ef047d106bd914b52e4b33d31b7380b8.png

通过这种注意力传播,来自整个点云和多个摄像头的信息被全面整合到单个圆柱体素表示中。

3.5. 改进的全景分割

前景目标选择门。在Panoptic-PolarNet中,全景网络分叉成三个预测头进行语义标签、中心和偏移预测。但是,我们发现语义预测在很大程度上影响最终的全景分割质量。这是因为中心和偏移头只提供与类别无关的预测,而准确的语义信息对于后处理中将前景网格聚类到最近的目标中心是必需的。我们提出FOG,一个前景目标选择门,以增强原始的语义分类器。FOG是一个二值分类器,旨在区分前景目标。给定骨干网络产生的体素特征,FOG预测一个与类别无关的二值掩模,,其由二进制交叉熵损失监督。因此,前景掩模在后处理分组期间补充语义头,过滤掉背景点。

损失设计。总损失如下:

88ea3106d4692a226669aeeafcbcec61.png

和表示语义监督的交叉熵损失和Lovasz损失。是BEV中心热力图回归的均方误差损失。是BEV偏移回归的L1损失。表示FOG头使用的二值熵损失,是用于区域融合的基于点的监督损失,由公式2给出。和被设置为100和10,其他三个权重被设置为1。

4. 实验

表1显示,我们的方法以5.1%的PQ(79.8%对74.7%)超过了当前最好的Panoptic-PHNet在验证集上的表现。我们在整体准确度方面取得了4.3%的RQ和7.1%的的大幅提升。与仅用激光雷达的基准相比,我们的方法总体PQ提高了6.9%,证明了我们的激光雷达-摄像头融合策略的有效性。对于测试集,与不使用测试时增强和集成操作的Panoptic-PHNet相比,我们也取得了可比的最先进结果,并且相对于仅用激光雷达的基准提高了6.7%的PQ。

2b832255a3e8d031a00276667807e48e.png

表1 NuScenes验证集上的3D全景分割结果。评价指标为PQ%。

89594c3dcf9798c84bb54070a4b71624.png

表2 NuScenes测试集上的3D全景分割结果。我们的结果与其他不使用测试时增强和集成的方法进行了比较。

4d4a382582eb332f04333ec2de86082a.png

图4 NuScenes验证集上各类别的PQ%结果。

表3展示了SemanticKITTI验证集的比较结果。由于SemanticKITTI仅有两个前视摄像头,与NuScenes相比,更少的点可以与图像特征匹配,从而增加了激光雷达-摄像头融合的难度。尽管如此,我们的方法比仅用激光雷达的基准提高了3.3%的PQ,证明了我们的融合策略的健壮性和有效性。

df061e4443f3747bf3f51fcf6de26c42.png

表3 SemanticKITTI验证集上的3D全景分割结果。

5. 结论

我们第一个提出几何一致和语义感知的激光雷达-摄像头全景网络。作为一个新范式,我们有效利用了激光雷达-摄像头传感器的互补信息,并通过异步补偿像素对齐(ACPA)、语义感知区域对齐(SARA)和点到体素特征传播(PVP)以及前景对象选择门(FOG)掩模等模块,对点融合方法中的异步和利用问题做出了重要努力。这些模块增强了整体可区分性和性能。         

① 全网独家视频课程

BEV感知、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、点云3D目标检测、目标跟踪、Occupancy、cuda与TensorRT模型部署、协同感知、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码学习)

7a3690a02ea0bff52270e1f5ca3a48ec.png 视频官网:www.zdjszx.com

② 国内首个自动驾驶学习社区

近2000人的交流社区,涉及30+自动驾驶技术栈学习路线,想要了解更多自动驾驶感知(2D检测、分割、2D/3D车道线、BEV感知、3D目标检测、Occupancy、多传感器融合、多传感器标定、目标跟踪、光流估计)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、AI模型部署落地实战、行业动态、岗位发布,欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频,期待交流!

e89d9ef9bdaddc60212d3beefd60f6f0.png

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦目标检测、语义分割、全景分割、实例分割、关键点检测、车道线、目标跟踪、3D目标检测、BEV感知、多模态感知、Occupancy、多传感器融合、transformer、大模型、点云处理、端到端自动驾驶、SLAM、光流估计、深度估计、轨迹预测、高精地图、NeRF、规划控制、模型部署落地、自动驾驶仿真测试、产品经理、硬件配置、AI求职交流等方向。扫码添加汽车人助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)

eb6962c999608563182f89685a507744.jpeg

④【自动驾驶之心】平台矩阵,欢迎联系我们!

7a640dd332f82736334451311972c2f4.jpeg

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值