一种中心对焦特征编码(CFFE)模块,它通过移动激光雷达点并填充中心点,显式地建模了原始激光雷达点与虚拟实例中心之间的关系。此外,本文提出了一种中心去重模块(CDM),它可以高效地保留每个实例的唯一中心,消除冗余的中心检测。

文章标题:Center Focusing Network for Real-Time LiDAR Panoptic Segmentation

文章链接:https://arxiv.org/abs/2311.09499

开源链接:https://github.com/GangZhang842/CFNet。

激光雷达全景分割是自动驾驶车辆全面理解周围物体和场景的关键技术,它要求算法具有实时性。最近的无先验方法虽然加快了运算速度,但由于难以建模不存在的实例中心和高昂的基于中心的聚类开销,其有效性和效率仍然有限。为了实现准确和实时的激光雷达全景分割,本文提出了一种新的中心对焦网络(CFNet)。具体来说,本文提出了一种中心对焦特征编码(CFFE)模块,它通过移动激光雷达点并填充中心点,显式地建模了原始激光雷达点与虚拟实例中心之间的关系。此外,本文提出了一种中心去重模块(CDM),它可以高效地保留每个实例的唯一中心,消除冗余的中心检测。在SemanticKITTI和nuScenes两个全景分割基准数据集上的评估结果表明,与所有现有方法相比,我们的CFNet在性能上取得了显著的提升,同时速度比最高效的方法快1.6倍。

CFNet_人工智能

图1. SemanticKITTI测试集上的PQ与运行时间。

#问题简介

全景分割是一种将语义分割和实例分割结合在一起的技术。它为不可数的东西类(例如道路,人行道)分配语义标签,同时为可数的东西类(例如汽车,行人)分配语义标签和实例ID。激光雷达全景分割是自动驾驶安全的重要基础,它利用激光雷达传感器采集的点云有效地描述周围环境。现有的激光雷达全景分割方法通常先进行语义分割,然后通过两种方式实现东西类的实例分割,即基于先验框架和无先验框架的方法。

基于先验框架的方法采用与图像领域中著名的Mask R-CNN类似的两阶段流程。它首先使用3D检测网络生成物体先验框,然后在每个先验框内单独提取实例分割结果。如图1所示,这些方法通常非常复杂,由于其顺序的多阶段流水线,难以实现实时处理。

基于无先验框架的方法更为简洁。为了将东西点与实例ID关联起来,这些方法通常利用实例中心。具体来说,它们回归从点到对应中心的偏移量,然后采用与类别无关的基于中心的聚类模块或基于鸟瞰图(BEV)的中心热力图。然而,这些方法存在两个问题。首先,对于中心特征提取和中心建模,由于激光雷达点通常是表面聚集的,在大多数情况下,实例中心是不存在的,这增加了难度。如图2(a)所示,这种困难通常导致一个实例被错误地分割成多个部分。其次,对于利用冗余检测到的中心,聚类模块(例如MeanShift,DBSCAN)的计算时间过长,无法满足实时自动驾驶感知系统的需求,而BEV中心热力图无法区分不同高度的物体位于同一个BEV网格中。

CFNet_特征编码_02

图2. 一辆车的实例分割案例,不同颜色表示不同的实例。

不带我们的CFFE模块,汽车被分割成部分(a),而CFFE显著改善了这个问题(b)。

为了实现准确和快速的激光雷达全景分割,本文提出了一种无先验框架的中心对焦网络(CFNet)。为了更好地编码中心特征,本文提出了一种新的中心对焦特征编码(CFFE)模块,它通过移动激光雷达点并填充中心点,以获得更精确的预测(如图2(b)所示)。为了更好地建模中心,CFNet不仅将全景分割任务分解为广泛使用的语义分割和中心偏移回归,而且还提出了一个新的置信度评分预测,以指示中心偏移回归的准确性。然后,为了高效地利用检测到的中心,本文设计了一个新的中心去重模块(CDM),以选择每个实例的唯一中心。CDM保留预测置信度更高的中心,同时抑制预测置信度较低的中心。最后,通过将移动后的东西点分配给最近的中心来实现实例分割。为了提高效率,CFNet建立在基于2D投影的分割范式之上。

#方法详析

CFNet_特征编码_03

CFNet_建模_04

中心对焦特征编码

如上所述,一个对象的激光雷达点通常是表面聚集的,尤其对于汽车和卡车类别,这导致对象的中心是虚构的,在激光雷达点云中不存在。为了编码不存在中心的特征,提出了一种新的中心对焦特征编码(CFFE),它以backbone提取的2D特征和3D点坐标为输入,生成增强的中心对焦特征图,如图3所示。

CFNet_激光雷达_05

图4. 提出的中心对焦特征编码(CFFE)。

“Conv”表示带有3×3内核、批归一化和ReLU层的2D卷积。语义分支和实例分支的细节如图3所示。蓝色箭头是坐标相关的操作。

CFFE模块由三个步骤组成,包括中间结果预测、中心特征生成和特征增强模块,如图4所示。

CFNet_人工智能_06

CFNet_特征编码_07

全景分割头

为了更好地建模实例中心,全景分割头使用语义分支预测语义分割,实例分支同时估计中心偏移和新引入的置信度分数,给定中心对焦语义特征图和实例特征图。

CFNet_特征编码_08

CFNet_建模_09

总损失是来自CFNet和CFFE的两个损失之和。 

中心去重模块

CFNet_特征编码_10

#实验结果

本文在SemanticKITTI和nuScenes全景分割基准上评估了CFNet,在单个NVIDIA RTX 3090 GPU上进行运行时间测量,使用全景质量(PQ)指标评估性能。经验证,CFNet在两个基准上的表现均远超现有方法,CFNet比最高效的方法快1.6倍。

CFNet_特征编码_11

图5. 我们的 CFNet 在 SemanticKITTI 测试集上的可视化。

不同的颜色代表不同的类或实例。

CFNet_特征编码_12

表1. SemanticKITTI验证集上的ablation研究。RT:运行时间。

CFNet_特征编码_13

 表2. 在SemanticKITTI训练集和验证集上,中间结果和带CFFE的CFNet的东西中心偏移的平均误差,单位米(m)。

CFNet_建模_14

表3. SemanticKITTI 测试集的结果。

CFNet_人工智能_15

表4. NuScenes 验证集的结果。

#结论

本文提出了一种新颖的无先验的中心对焦网络(CFNet),用于实时的激光雷达全景分割。为了更好地建模和利用不存在的实例中心,本文提出了一种新的中心对焦特征编码(CFFE)模块,用于生成增强的中心对焦特征图,以及一种中心去重模块(CDM),用于为每个实例保留唯一的中心,然后将移动后的东西点分配给最近的中心,以获取实例ID。从实验中可以看出,中心建模和利用是无先验的激光雷达全景分割方法中的一个关键问题,而模拟不存在的中心特征是有前景的,并且显示出明显的优势。