3D全景分割新范式!LCPS:首篇LiDAR-Camera融合框架(ICCV23)

点击下方卡片,关注“自动驾驶之心”公众号

ADAS巨卷干货,即可获取

今天自动驾驶之心很荣幸邀请到上海交通大学的Zhiwei Zhang博士来分享ICCV 2023最新中稿的激光雷达-相机全景分割的算法—LCPS,如果您有相关工作需要分享,请在文末联系我们!

>>点击进入→自动驾驶之心【全景分割】技术交流群

论文作者 | Zhiwei Zhang

编辑 | 自动驾驶之心

论文标题:LiDAR-Camera Panoptic Segmentation via Geometry-Consistent and Semantic-Aware Alignment
论文链接:https://arxiv.org/abs/2308.01686
代码链接(Come Soon):https://github.com/zhangzw12319/lcps.git

我们提出了首个基于激光雷达-摄像头多模态融合的全景分割网络(Lidar-Camera Panoptic Segmentation, LCPS)。在此方法中,我们分三个阶段进行激光雷达-摄像头特征融合:1) 基于异步补偿的像素对齐模块(ACPA),用于校准传感器之间工作频率不同引起的坐标错位问题;2) 基于语义感知的区域对齐模块(SARA),通过弱监督类激活图(CAM)方法将一对一的“点-像素”映射关系扩展到一对多的映射关系,并保持语义一致性; 3)点-体素的特征传播模块(PVP),集成相机视野内外的点云全场景信息。我们的多模态融合策略在NuScenes 数据集和SemanticKITTI 数据集上比LiDAR单模态基线提高了约 6.9% 和3.3% 性能。广泛的定量和定性实验进一步证明了我们新颖框架的有效性。

1. 任务简述

3D场景感知技术广泛应用于自动驾驶,机器人导航等多个领域中。其中,基于激光雷达(LiDAR)的3D全景分割任务是一项具有挑战性的综合性三维感知任务,其要求相关方法同时具备语义分割和实例分割的能力。目前主流方法仅使用激光雷达数据,但图像数据可以提供丰富的纹理、颜色等关键判别性信息来作为补充。这启发我们使用图像作为额外输入以提高深度网络的场景理解能力。

8ebb454ce0d000217477bdc58fbff75b.png
图1 激光雷达点云与图像的区别。(a) 红框展示了点云中的一个车辆分割块(橙色点),点云的位置分布稀疏且不均匀;(b) 右下角车辆的绿色掩码块由CenterNet网络[1]识别得到,可见图像具备密集的纹理与颜色信息; 左上角蓝色车辆掩码(有部分遮挡)显示出图像特征有利于对远处小目标的检测与识别。

2. 方法提出

我们观察到仅用激光雷达数据进行感知存在一些不足:1) 激光雷达点云通常稀疏且分布不均匀,如图1(a)所示,这使得3D网络很难捕获前景和背景之间的显著差异;2) 占用很少点的远处目标在视野中出现很小,不能被有效检测到。

虽然激光雷达传感器和摄像头可以互补,但它们的融合策略仍然具有挑战性。现有的融合策略通常可以分为Proposal级别融合、结果级融合和点级融合[2]。然而,Proposal级和结果级融合侧重于集成2D和3D的Proposal或候选框进行目标检测,这限制了它们在密集预测(如分割任务)中的泛化能力。点级融合方法也存在如下问题:1) 激光雷达和摄像头之间的不同工作频率没有被考虑到,这可能导致特征对应关系错配;2) 点级融合是一对一的融合机制,大量图像区域无法映射到稀疏的激光雷达点,导致丰富的密集像素特征被浪费;例如,对于32线激光雷达,只有约5%的像素可以映射到相关点云,而95%的像素特征会被丢弃。3) 点级融合方法通常使用简单的特征拼接,这将排除投影落在图像平面之外的点参与融合,因为图像特征无法支持它们。

为了解决上述问题,我们提出了首个激光雷达-摄像头全景分割网络框架LCPS。我们的方法在三个阶段进行激光雷达-摄像头的传感器融合:1)基于异步补偿的像素对齐模块(ACPA),用于校准传感器之间工作频率不同引起的坐标错位问题;2) 基于语义感知的区域对齐模块(SARA),将一对一的点-像素映射扩展为一对多的语义关系; 3)点-体素的特征传播模块(PVP),集成相机视野内外的点云全场景信息。实验表明,我们的多模态融合策略在NuScenes 和SemanticKITTI 数据集提高了约 6.9% 和3.3% PQ 性能,并以5.1%的PQ(79.8%对74.7%)超过了当前最好的Panoptic-PHNet在验证集上的表现。我们还证明了我们的融合策略的健壮性和有效性。

3. 方法详解

3.1. 概述

问题定义

我们将一组激光雷达点表示为,其中、和分别表示总点数、3D坐标和维点特征向量。这个任务需要为每个点预测唯一的语义类别,并准确识别点云子集作为前景物体,用实例ID表示为。

此外,我们假设个环视摄像头捕获与激光雷达帧相关联的图像。类似地,我们可将每个图像表示为像素的集合 ,其中、、和分别表示总像素数、2D位置、像素特征和摄像头索引。本文的主要目标是通过充分探索激光雷达和摄像机中的互补信息来提高全景分割性能。

63f3c1a371ab1b462329a9c2fe9d5dbc.png
图2  LCPS总体流程图。LCPS由多模态编码、特征融合和全景预测三大模块组成。编码模块提取扇形体素特征、MLP特征和图像特征。在融合阶段,MLP特征在ACPA和SARA的作用下与像素特征进行几何和语义对齐。接下来,PVP模块将融合的点特征与原始扇形体素特征合并以获得融合特征输入主干网络。最后,全景预测模块输出四个头的预测,经过后处理获得全景分割结果。
流程架构

我们的框架由多模态编码模块、激光雷达-摄像头特征融合模块和全景预测模块组成。在编码阶段,激光雷达点分别由扇形体素编码器和MLP编码器编码,而图像由SwiftNet [2] 编码。在融合阶段,MLP特征和图像特征首先通过ACPA和SARA进行“一对一”与“一对多”的点-像素对齐,然后被串联成融合的点级特征。随后,我们的点-体素传播模块(PVP)把融合的点级特征,融合到最终的扇形体素特征表示。在全景预测模块,骨干网络会输出到FOG头、语义分割头(Semantic)、热力图头(Heatmap)和偏移头(Offset)这四个分类头的预测结果。热力图和偏移头用来回归一个二值BEV物体中心点预测和BEV网格的2D偏移量。在推理期间,后处理将预测的前景BEV网格移位到其最近的中心,并将网格内的点聚类到实例中。FOG头用来预测网络前景和背景信息,在后处理过程中对语义分割结果中的过滤增强。

3.2. 基于异步补偿的像素对齐模块(ACPA)

一个直接的解决方案是把点云直接投影到图像平面并附上对应的像素特征。但是,这种映射会由于摄像头和激光雷达传感器之间的异步频率导致错误投影。例如,在NuScenes数据集上,每个摄像头的操作频率为12Hz,而激光雷达传感器的操作频率为20Hz,如图3所示,车辆的边缘区域可能会和背景像素错位。

6ea454268ca2f8647287e608c0a1da97.png
图3 投影效果可视化比较。第一行是没有加入异步补偿操作时的投影效果,点云投影会发生不同程度的错位偏移,尤其对于小远目标和相机边缘物体影响更为严重(如第二列所示);第二行是加入一部补偿后改善的投影效果。最后一列展示了一些Limitation案例, 对于再正前方且车速比较慢的情况下,是否加入异步补偿操作影响不大。

我们通过加入额外的异步补偿措施来实现点-像素几何对齐。基本思想是将激光雷达点坐标变换到对应图像捕获时的新3D坐标系中。变换矩阵是通过考虑自车的运动矩阵获得的。具体地,令和分别表示激光雷达点云和相关图像的时间。然后我们有:

步骤1. 将激光雷达点从世界坐标变换到时的自车坐标。乘以数据集提供的坐标变换矩阵,可以获得自车坐标系统下3D位置,表示为。

步骤2. 将自车坐标下从时刻的激光雷达点变换到时刻。要实现这一点,需要一个时间变化的变换矩阵,表示为。但是,这样的矩阵通常在数据集中难以直接获得。然而,自车从当前帧到第一帧的运动矩阵通常被提供给每个分割序列,由此我们可以将分解为和的乘积,其中是第一帧的时间。使用这个自车运动变换矩阵,我们获得时刻自车坐标下的点位置,表示为。

步骤3. 获得时刻的像素特征。通过使用相机外参和内参矩阵(和),我们得到每个点在第k个图像平面中的投影2D位置。排除投影在图像平面之外的点后,得到的像素特征 由索引。是图像平面内的点数()。

这些齐次变换步骤可以总结为以下方程:

23d435c2ce607232cd25ac8aefcf0417.png

3.3. 基于语义感知的区域对齐模块(SARA)

72f36d98c8ca67c8af85283c609af4a0.png
图4 (a) SARA模块采用逐像素语义分类器,构建CAMs并定位语义区域;(b) PVP模块展示,包括点云的扇形体素划分和注意力传播。

由于激光雷达点云的稀疏性和有限的视野,只有一小部分图像特征可以与激光雷达点匹配。为解决这个问题,我们提出找到与点云语义相关的图像区域,将一对一映射扩展为一对多关系。我们通过使用图像类激活图(CAM)定位相关语义区域,提出语义感知区域对齐模块,如图4(a)所示。

步骤1. 我们首先在图像分支中引入像素级语义分类器以学习图像分支中的语义信息,并将分类器参数定义为,其中是语义类别数。我们定义点标签弱监督的图像分类器,其损失函数为交叉熵损失:

f7032f91cb129bfdbaa504098cb3fe4f.png

其中和分别表示预测像素标签和点云真值标签。表示可以投影到第k个图像平面的点数。

步骤2. 我们用该分类器生成类激活图(CAM)。令为最后一层卷积层提取的图像特征图,其中和 是图像特征图的高度和宽度。然后我们可以用以下公式获得CAM:

e4d9c24c8459723ecd32f7de5abde569.png

其中表示矩阵乘法。生成的CAM用表示,CAM中的每个通道是一个与特定语义类别相关的的热力图,如图5所示。

9e96c3b1f2985c1e684df178650c6fd6.png
图5 CAM可视化展示,包括多个前景与背景类别的CAM热力图生成结果。

步骤3. 对于每个激光雷达点,我们使用该点生成的CAM定位一组像素作为语义相关的图像区域。我们设计一个过滤门,它是通过根据GT类别或预测类别从中选择单个类别的热力图构建的。过滤门通过减去预定义的置信度阈值来控制筛选高相关性图像区域,低于该阈值的像素在中会被设置为零。最后,我们得到一组相关像素:

393b59f4009381cf02da67bf0fc674ac.png

其中表示逐元素乘法,表示激活函数。Flatten函数将特征从矩阵格式转换为的格式,后续丢弃由过滤掉的零向量。于是,我们为每个激光雷达点和每个摄像头获得了一组匹配的区域特征集合 。最后,我们对区域特征集合求平均,然后将其与MLP输出和像素对齐特征拼接以构成融合的点级特征。

3.4. 点云到体素特征传播(PVP)

图像特征无法匹配相机视锥体之外的点,因此这些点通常被舍弃掉不参与融合。为了解决这个问题,我们提出点-体素特征传播模块,以便为整个点云整合几何和语义信息。为此,我们选择扇形体素的表征作为桥梁来完成融合过程,因为体素的张量形状不会随点云位置的改变而改变,这自然地为原始点云集合与融合了图像信息的点云子集之间提供了对齐的方式。

如图4 (b)所示,扇形体素编码器首先将原始点云编码;同时,对于融合的点特征,我们首先用MLP将它们的通道维度与原始体素对齐,然后将这些融合点划分到另一组扇形体素中。一个显著的观察是:一个激光雷达点可能与多个摄像头有对应,导致该点产生多个融合的点特征向量。因此,在体素化过程中,我们将这些多个特征视为具有相同3D位置的多个点。然后,我们使用修改后的局部注意力将融合点特征的体素(表示为)传播到原始扇形体素(表示为)。在该注意力机制中,每个体素充当查询,而邻近的27个 体素充当键和值。然后计算公式为:

8173618a2d358c3079962bffb24c2e3f.png

其中是通道维数。之后,我们将注意力体素与原始相加以构建残差连接,如下所示:

4b6525b731c64e4c030c0618e2b91a8d.png

通过这种注意力传播,来自整个点云和多个摄像头的信息被全面整合到单个扇形体素表示中。

3.5. 其他改进与损失函数

前景目标选择门: 在现有单模态SOTA工作Panoptic-PolarNet中[4],全景网络分叉成三个预测头进行语义标签、中心和偏移预测。但是,我们发现语义分割预测质量在很大程度上影响最终的全景分割质量。这是因为中心和偏移头只提供与类别无关的预测,而语义信息准确与否将极大影响后处理前景网格聚类的质量。我们提出FOG,一个前景目标选择门,以增强原始的语义分类器。FOG是一个二分类器,旨在区分前景和背景物体。给定骨干网络产生的体素特征,FOG预测一个与类别无关的二值掩模,其由二进制交叉熵损失监督。在后处理阶段,FOG会过滤掉预测为背景的点,进一步

损失函数设计总体如下:

07595a5f67258856c23f307b1e886ab7.png

和表示语义监督的交叉熵损失和Lovasz损失。是BEV中心热力图回归的均方误差损失。是BEV偏移回归的L1损失。表示FOG头使用的二值熵损失,是用于区域融合的基于点的监督损失,由公式2给出。和被设置为100和10,其他三个权重被设置为1。

4. 实验展示

表1显示,我们的方法以5.1%的(79.8%对74.7%)超过了当前最好的Panoptic-PHNet在验证集上的表现。我们在整体准确度方面取得了4.3%的RQ和7.1%的的大幅提升。与仅用激光雷达的基准相比,我们的方法总体提高了6.9%,证明了我们的激光雷达-摄像头融合策略的有效性。对于测试集,与不使用测试时增强和集成操作的Panoptic-PHNet相比,我们也取得了可比的最先进结果,并且相对于仅用激光雷达的基准提高了6.7%的。

2ed9c0c733a779ba252dfaa4488c4c15.png
表1 NuScenes验证集上的3D全景分割结果。
16942fb4c75eb4aef9af8a5aa5148dbb.png
表2 NuScenes测试集上的3D全景分割结果。我们的结果与其他工作中不使用Test-Time Augmentation(TTA)和Ensemble技巧的结果进行了比较。
7a4179871ea093db725ec888ba81344a.png
图4 NuScenes验证集上各类别的PQ%结果。

表3展示了SemanticKITTI验证集的比较结果。由于SemanticKITTI仅有两个前视摄像头,与NuScenes相比,更少的点可以与图像特征匹配,从而增加了激光雷达-摄像头融合的难度。尽管如此,我们的方法比仅用激光雷达的基准提高了3.3%的PQ,证明了我们的融合策略的健壮性和有效性。

daf37786c43fcfdf668f0df78fb0528a.png
表3 SemanticKITTI 验证集上的3D全景分割结果

其他可视化效果如下所示:

412a2042e97c8c5f607da5385bf1d161.png
图5 NuScenes可视化效果,模块Ablation Study效果对比,夜景下可视化展示,人群车辆等复杂场景的实例分割展示
d44087162733d25aaa5c15359299a112.png
图6 SemanticKITTI可视化效果展示
7342edd2650cbda3d29b862cbd3abb1a.png
图7 NuScenes前景物体逐类别可视化展示1:单视角下3D分割结果与2D投影
e18449d388d4b8913bb212178b5a55d1.png
图8 NuScenes前景物体逐类别可视化展示2:多视图共视视角下3D分割结果与2D投影

5. 结论

我们第一个提出几何一致和语义感知的首个激光雷达-摄像头全景分割网络。作为一个新范式,我们有效利用了激光雷达-摄像头传感器的互补信息,并通过异步补偿像素对齐(ACPA)、语义感知区域对齐(SARA)和-特征传播(PVP)以及前景对象选择门(FOG)掩模等模块,对点融合方法中的异步和图像利用问题做出了重要努力,这些模块增强了全景分割网络的可区分性和整体性能。

参考文献

[1] K. Duan, S. Bai, L. Xie, H. Qi, Q. Huang, and Q. Tian, “CenterNet: Keypoint Triplets for Object Detection,” in 2019 IEEE/CVF International Conference on Computer Vision (ICCV), Seoul, Korea (South), Oct. 2019. doi: 10.1109/iccv.2019.00667.

[2] H. Wang, X. Jiang, H. Ren, Y. Hu, and S. Bai, “SwiftNet: Real-time Video Object Segmentation,” Cornell University - arXiv,Cornell University - arXiv, Feb. 2021.

[3] Z. Zhou, Y. Zhang, and H. Foroosh, “Panoptic-PolarNet: Proposal-free LiDAR Point Cloud Panoptic Segmentation,” in 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Nashville, TN, USA, Jun. 2021. doi: 10.1109/cvpr46437.2021.01299.

[4] Z. Zhou, Y. Zhang, and H. Foroosh, “(CVPR 2021)Panoptic-PolarNet: Proposal-free LiDAR Point Cloud Panoptic Segmentation,” in 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Nashville, TN, USA, Jun. 2021. doi: 10.1109/cvpr46437.2021.01299.

① 全网独家视频课程

BEV感知、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、点云3D目标检测、目标跟踪、Occupancy、cuda与TensorRT模型部署、协同感知、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码学习)

560acbb1dab390968d1054e77d3b0a37.png 视频官网:www.zdjszx.com

② 国内首个自动驾驶学习社区

近2000人的交流社区,涉及30+自动驾驶技术栈学习路线,想要了解更多自动驾驶感知(2D检测、分割、2D/3D车道线、BEV感知、3D目标检测、Occupancy、多传感器融合、多传感器标定、目标跟踪、光流估计)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、AI模型部署落地实战、行业动态、岗位发布,欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频,期待交流!

d18dd5b9c054482c89758664f47cccab.png

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦目标检测、语义分割、全景分割、实例分割、关键点检测、车道线、目标跟踪、3D目标检测、BEV感知、多模态感知、Occupancy、多传感器融合、transformer、大模型、点云处理、端到端自动驾驶、SLAM、光流估计、深度估计、轨迹预测、高精地图、NeRF、规划控制、模型部署落地、自动驾驶仿真测试、产品经理、硬件配置、AI求职交流等方向。扫码添加汽车人助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)

0f0c6d1e98b06e5fd3441900e3ace89e.jpeg

④【自动驾驶之心】平台矩阵,欢迎联系我们!

f57b30845bd8b78b8e4c13e75f40641b.jpeg

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值