论文阅读:Cylindrical and Asymmetrical 3D Convolution Networksfor LiDAR Segmentation

题目:用于激光雷达分割的圆柱形和非对称三维卷积网络

来源CVPR 2021

开源链接: https://github.com/xinge008/Cylinder3D

0、摘要

用于大规模行车场景分割的最先进的方法通常是将点云投影到二维空间,然后通过二维卷积进行处理。虽然这种方法在点云领域表现出了竞争力,但不可避免地改变和放弃了三维拓扑和几何关系。一种自然的补救方法是利用三维体素化和三维卷积网络。但是,我们发现在室外点云中,这种方法得到的改善是非常有限的。一个重要的原因是室外点云的稀疏性和变密度性。基于这一研究,我们提出了一种用于户外激光雷达分割的新框架,其中圆柱形分割和非对称三维卷积网络被设计来探索三维几何模式,同时保持这些固有特性。此外,还引入逐点细化模块来降低有损体素标签编码的干扰。我们在SemanticKITTI和nuScenes两个大规模数据集上评估了所提出的模型。我们的方法在semantickitti1的排行榜上获得了第一名,并且在nuScenes上比现有方法有明显的优势,大约4%。此外,所提出的三维框架对激光雷达全景分割和激光雷达三维检测也有很好的推广意义。

1. 引言

三维激光雷达传感器已经成为现代自动驾驶汽车中不可缺少的设备。与传统的视觉相机相比,它能捕捉到更精确、更远的周围环境测量距离。传感器的测量自然形成三维点云,可用于实现对自动驾驶规划和执行场景的全面理解,其中激光雷达分割是理解驾驶场景的关键。其目的是识别每个3D点的预定义类别,如汽车、卡车、行人等,提供整个3D场景的点式感知信息。

近年来,深度学习技术的发展显著地推动了图像分割技术的发展。现有的一些LiDAR分割方法都是按照这一路径将三维点云投影到二维空间,并通过二维卷积网络对其进行处理,包括基于距离图像[27,42]和基于[51]的鸟瞰图。但是,在进行三维到二维投影时,丢失和改变了精确的三维几何信息(如图1a的第一行所示)。(个人感觉并没有丢失,只不过深度信息被存储到值中,而不是原来的xyz,仍然包含结合几何信息只不过很难直观展现)

一种自然的替代方法是利用三维分区和三维卷积网络来处理点云并保持它们的三维几何关系。然而,在我们最初的尝试中,我们直接将3D体像素化[14,9]和3D卷积网络应用到室外的LiDAR点云中,只发现性能增益非常有限(如图1b所示)。通过对该问题的研究,我们发现室外激光雷达点云的一个关键难点是稀疏性和密度变化性,这也是与点密度密集和均匀的室内场景的关键区别。然而,以往的三维体素化方法将点云视为一个均匀的点云,并通过均匀的立方体进行分割,而忽略了室外点云的变密度特性。因此,将这种效果应用于室外点云的三维分区遇到了根本性的困难

基于这些发现,我们提出了一种新的室外激光雷达分割框架,该框架由两个关键部分组成,即三维柱面分割和非对称三维卷积网络,分别从分割和网络中维护三维几何信息和处理这些问题。在这里,柱面划分是利用柱面坐标根据距离动态划分点云(离原点较远的区域点稀疏较多,因此需要较大的元胞),点分布较为平衡(如图1a所示);而非对称三维卷积网络则通过增强水平和垂直核来匹配驾驶场景中物体的点分布,增强了对稀疏性的鲁棒性。此外,基于体素的方法可能会将不同类别的点划分为相同的单元,而单元标签编码不可避免地会导致信息丢失。为了减轻有损标签编码的干扰,引入逐点模块进一步细化基于体素的网络特征。总体而言,这些构件的组合很好地保持了几何关系,解决了室外点云的困难,提高了三维框架的有效性。

我们在SemanticKITTI[2]和nuScenes[5]两个大型户外数据集上对所提出的方法进行了评价。我们的方法在SemanticKITTI排行榜上获得了第一名,并且在nuScenes上也有很大的优势。我们还将提出的圆柱形分割和非对称三维卷积网络扩展到激光雷达全景分割和激光雷达三维检测。实验结果表明,该算法具有较强的泛化能力和可扩展性。

本文的工作主要贡献在三个方面:

(1)将室外激光雷达分割的焦点从二维投影重新定位到三维结构,进一步研究室外点云的固有特性(难点)。

(2)我们引入了一个新的框架,通过柱面划分和非对称的三维卷积网络来探索三维几何模式,解决了稀疏性和密度变化带来的困难。

(3)该方法在SemanticKITTI和nuScenes上取得了较好的应用效果,在激光雷达全景分割和激光雷达三维检测方面也表现出较强的泛化能力。

2、相关工作

室内场景点云分割。室内场景点云具有密度一般均匀、点数量少、场景范围小等特点。室内点云分割的主流方法[29,36,44,41,37,24,12,50,46,38,28,30]直接基于原始点学习点特征,往往是在PointNet这一开创性工作的基础上,提高采样、分组和排序的有效性,以达到更好的性能。另一组方法利用聚类算法[41,37]提取层次点特征。但是,这些针对室内点云的方法,在适应室外点云密度变化大、场景范围大的特性方面存在一定的局限性,并且由于点的数量较多,导致这些方法在室内到室外部署时计算困难。

户外场景点云分割。现有的户外场景点云分割方法[16,10,27,1,48,20]主要关注将三维点云转化为二维网格,以便利用二维卷积神经网络。SqueezeSeg[42]、Darknet[2]、SqueezeSegv2[43]、RangeNet++[27]利用球面投影机制,将点云转换为正视图图像或距离图像,并在伪图像上采用二维卷积网络进行点云分割。PolarNet[51]遵循鸟瞰图投影,它将点云数据投影到极坐标下的鸟瞰图表示中。然而,这些三维到二维投影方法不可避免地会丢失和改变三维拓扑,无法对几何信息进行建模。

3D体素分区。D体素分割是点云编码的另一种方法[15,35,14,9,25]。它将点云转化为三维体素,体素主要保留三维几何信息。OccuSeg [15], SSCN[14]和SEGCloud[35]遵循这一行来利用体素分区,并应用常规的3D卷积用于LiDAR分割。值得注意的是,虽然上述努力已经取得了令人鼓舞的成果,但户外激光雷达点云的改善仍然有限。如上所述,常见的问题是这些方法忽略了室外LiDAR点云的固有特性,即稀疏性和变密度。与这些方法相比,我们提出的方法利用三维圆柱划分和非对称三维卷积网络来解决这些困难。

用于分割的网络架构。全卷积网络[23]是深度学习时代的基础性工作。在FCN的基础上,许多工作旨在通过探索扩张卷积、多尺度上下文建模和注意力建模来提高性能,包括DeepLab[6,7]和PSP[52]。最近的研究利用神经结构搜索来寻找更有效的分割主干[22,33]。此外,U-Net[31]还提出了一种对称的体系结构来整合底层特性。随着U-Net在二维基准上的巨大成功和其良好的灵活性,许多关于LiDAR分割的研究使U-Net适应于三维空间[9]。我们也遵循这个结构来构建我们的非对称3D卷积网络。

3. 方法Methodology

3.1整体结构

在语义分割的背景下,给定一个点云,我们的任务是为每个点分配语义标签。通过对二维和三维表示方法的比较,以及对户外激光雷达点云固有特性的研究,我们希望得到一种能够探索三维几何信息并解决稀疏性和变密度带来的困难的框架。为此,我们提出了一种新的基于三维分割和三维卷积网络的户外图像分割方法。针对户外激光雷达点云稀疏性和变密度性的困难,我们首先采用柱面分割生成更均衡(对变密度更鲁棒)的点分布,然后利用非对称三维卷积网络对水平和垂直权值进行增强,从而很好地匹配了驾驶场景中的目标点分布,增强了对稀疏性的鲁棒性。

如图2上半部分所示,该框架主要由柱面分割和非对称三维卷积网络两部分组成。首先对LiDAR点云进行柱面划分,然后在柱面划分的基础上对MLP中提取的特征进行重新分配。然后使用非对称三维卷积网络生成体素方向的输出。最后,引入逐点模块来减少有损cell-label编码的干扰,从而细化输出。在下面的部分中,我们将详细介绍这些组件。

3.2 圆柱分割

如上所述,室外场景LiDAR点云具有变密度的特性,附近区域的密度远大于远处区域。因此,均匀的细胞分裂变密度点,会出现不平衡的分布(如空细胞比例较大)。而在柱面坐标系下,利用网格尺寸的增大来覆盖较远的区域,使得点在不同区域的分布更加均匀,相对于密度的变化表现更加均衡。我们在图3中执行一个统计来显示在不同距离上非空细胞的比例。可以发现,随着距离的增加,柱状隔板由于网格尺寸的增大而保持着平衡的非空比例,而立方隔板则分布不平衡,特别是在较远的区域(约小于柱状隔板的6倍)。此外,与这些基于投影的方法将点投影到2D视图不同,柱状分区保留了3D网格表示,以保留几何结构。

工作流程如图4所示。首先将笛卡尔坐标系上的点变换为柱坐标系。这一步将点(x, y, z)转换为点(ρ, θ, z),其中半径ρ(到x-y轴上原点的距离)和方位角θ(从x轴到y轴的角度)计算出来。然后圆柱分区在这三个维度上执行分割,注意在圆柱坐标中,越远的区域,越大的单元。从MLP中得到的逐点特征根据分区结果进行重新分配,得到圆柱形特征。经过这些步骤,我们从0度展开柱面,得到三维柱面表示R∈C ×H ×W× L,其中C表示特征尺寸,H,W, L表示半径、方位角和高度。后续的非对称3D卷积网络将在此表示上执行。

3.3 非对称三维卷积网络

由于驾驶场景点云执行特定的物体形状分布,包括汽车、卡车、公共汽车、摩托车和其他立方体物体,我们的目标是遵循这一观察来增强标准3D卷积的表示能力。此外,最近的文献[40,11]也表明,中心交叉权值在平方卷积核中更受重视。在此基础上,我们设计了非对称残块,以加强水平和垂直响应,匹配目标点分布。在提出的非对称残块的基础上,进一步构建了非对称下样块和非对称上样块进行下样和上样操作。此外,本文还引入了一种基于维度分解的上下文模型(DDCM)来探讨分解-聚合策略中的高阶全局上下文。我们在图2的底部详细描述了这些组件。

非对称残块Asymmetrical Residual Block

根据文献[40,11]的观察和结论,非对称残差块增强了水平和垂直核,与驾驶场景中物体的点分布匹配,明确地使核骨架更加强大,从而增强了对室外LiDAR点云稀疏性的鲁棒性。我们在图5以汽车和摩托车=为例来展示不对称的残块,其中在柱面网格上进行3D卷积。此外,与标准的正方形三维卷积块相比,提出的非对称残差块节省了计算量和内存开销。通过引入非对称残块,设计了非对称下采样块和上采样块,并将这些下采样块和上采样块进行叠加,构建了非对称三维卷积网络。

基于维度分解的上下文模型Dimension-Decomposition based Context Modeling

由于全局上下文特性应该是高阶的,以便有足够的容量来捕获大型上下文品种[49],因此很难直接构造这些特性。我们遵循张量分解理论[8]将高阶上下文构建为低阶张量的组合,其中我们使用三个秩1的核来获取低阶特征,然后将它们聚合在一起,得到最终的全局上下文。

3.4 逐点细化模块 Point-wise Refinement Module

基于分区的方法为每个单元预测一个标签。虽然基于分区的方法可以有效地探索大范围点云,但是这组方法,包括基于立方体和基于柱面的方法,不可避免地会存在cell-label编码的损耗问题,例如不同类别的点被划分到同一个cell中,这种情况会造成信息的丢失。我们在图6中统计了不同标签编码方法的效果,其中majority编码是指用一个细胞内点的大类作为细胞标签,minority编码是指用小类作为细胞标签。可以观察到,两者都不能达到100% mIoU(理想编码),不可避免地会有信息丢失。在这里,引入逐点细化模块,以减轻有损cell-label编码的干扰。我们首先基于点-体素映射表将体素特征投影到点-体素映射表。逐点模块以三维卷积网络前后的点特征作为输入,将它们融合在一起,细化输出。

3.5. 目标函数

我们的方法的总目标由两部分组成,包括体素方向的损失和点方向的损失。它可以写成。对于voxel-wise loss (Lvoxel),我们遵循现有的方法[10,16],分别使用加权交叉熵损失和lovasz-softmax[4]损失来最大化点精度和交联得分。对于逐点损失(point-wise loss, Lpoint),我们只使用加权交叉熵损失来监督训练。在推理期间,逐点细化模块的输出将用作最终输出。对于优化器,使用了初始学习率为1e−3的Adam。

4. 实验

在本节中,我们首先提供详细的实验设置,然后评估所提出的方法在两个大型数据集上,即SemanticKITTI和nuScenes。此外,还进行了广泛的消融研究来验证每个成分。最后,我们将该方法扩展到激光雷达全景分割和三维检测中,验证了其可扩展性和泛化能力。

4.1 数据集和度量

SemanticKITTI[2]是一个用于点云分割的大规模行车场景数据集,包括语义分割和全景分割。它源自KITTI视觉里程计基准,并在德国由Velodyne-HDLE64激光雷达采集。该数据集由22个序列组成,序列00 ~ 10拆分为训练集(其中序列08作为验证集),序列11 ~ 21拆分为测试集。合并不同运动状态的类后,保留19个类进行训练和评估,忽略点数较少的类。

nuScenes它用32光束激光雷达传感器收集了20秒持续时间的1000个场景。总帧数为40000,采样频率为20Hz。他们还正式将数据拆分为训练集和验证集。在合并相似类和删除罕见类之后,总共保留了16个用于LiDAR语义分割的类。

对于这两个数据集,圆柱形分区将这些点云分割成尺寸= 480 × 360×32的三维表示,其中三维表示半径、角度和高度。

评价指标 为了评估所提出的方法,我们遵循官方指导,利用均值交并(mIoU)作为在[2,5]中定义的评估指标,它可以表示为:IoUi = TPi TPi+FPi+FNi,其中TPi、FPi、FNi表示第i类的真阳性、假阳性和假阴性预测,mIoU是所有类的IoUi的平均值。

4.2. SemanticKITTI结果

在本次实验中,我们在SemanticKITTI测试集上,将我们提出的方法与现有最先进的LiDAR分割方法的结果进行了比较。如表1所示,我们的方法在mIoU方面优于现有的所有方法。与基于二维空间投影的方法(Darknet53[2]、SqueezeSegv3[45]、RangeNet++[27]和PolarNet[51])相比,由于三维几何信息的建模,我们的方法在mIoU方面获得了8% ~ 17%的性能增益。与基于体元分割和三维卷积的方法(FusionNet[48]、TORANDONet[13](基于多视图融合的方法)和SPVNAS[33](利用神经结构搜索进行LiDAR分割)相比,本文方法的性能也优于基于三维卷积的方法,其中柱面分割和非对称三维卷积网络很好地解决了这些方法忽略的驾驶场景激光雷达点云问题。

4.3. nuScenes结果

由于nuScenes数据集没有发布LiDAR分割的评估服务器,我们在验证集中报告结果,其中RangeNet++和Salsanext每个形式的后处理。如表2所示,我们的方法在所有类别中都比现有方法有更好的性能。具体来说,该方法比基于投影的方法获得了大约4% ~ 7%的性能增益。此外,对于具有稀疏点的分类,如自行车和行人,我们的方法明显优于现有的方法,这也证明了该方法在处理稀疏和变密度问题上的有效性。

4.4.消融实验 Ablation Studies

在本节中,我们进行全面的烧蚀实验,以研究在我们的方法中不同组件的影响。我们还设计了几个不同的非对称残差块,以验证我们的主张,加强水平和垂直核增强了驾驶场景点云的表现能力。

网络组件的影响

在这一部分中,我们创建了模型的几个变体,以验证不同组件的贡献。表3报告了SemanticKITTI验证集上的结果。基线法采用三维体素划分和三维卷积网络表示框架。结果表明,在mIoU增益约为3%的情况下,柱面分割比基于立方网格的分割性能好得多,而非对称三维卷积网络也显著提高了约3%的性能,这表明在该方法中,柱面分割和非对称三维卷积网络都是至关重要的。此外,基于维度分解的上下文建模提供了有效的全局上下文特征,提高了1.4%。逐点细化模块进一步推动了基于强模型的性能,约0.7%。

非对称残块

为了验证所提出的非对称残块的有效性,我们设计了几个非对称残块的变体,来研究水平和垂直核增强的效果(如图7所示)。第一个变体是没有任何非对称结构的规则残块。第二种是一维非对称残块,利用了一维非对称无高度核,同时在一维上强化了水平和垂直核。

我们对SemanticKITTI验证集进行消融研究。请注意,我们使用圆柱形划分作为划分方法,并将这些提议的变体进行叠加,以构建3D卷积网络。我们将结果报告在表4中。可以发现,虽然一维非对称残块在不考虑高度的情况下只对水平和垂直核进行一维幂次,但其mIoU仍有1.3%的增益,说明了水平和垂直核增强的有效性。在考虑高度的情况下,提出的非对称残差块进一步匹配驾驶场景中的目标分布,并增强核骨架以增强对稀疏性的鲁棒性。从表4中可以看出,所提出的非对称残差块显著提高了性能,提高了约3%,其中在一些实例类别上可以观察到较大的改进(约10%的提高),包括卡车、人和摩托车,因为它匹配对象的点分布,提高了表征能力。

4.5 泛化分析

在本节中,我们将提出的圆柱形分割和非对称3D卷积网络扩展到其他基于LiDAR的任务,包括LiDAR全景分割和LiDAR 3D检测。实验结果证明了该方法的泛化能力及其在激光雷达点云处理中的有效性。在接下来的内容中,我们将描述这两个任务,并详细介绍我们如何调整所提议的模型。

全景分割是在[18]中首次提出的一项新任务,对北京进行语义分割,对前景进行实例分割,将这两组类别分别称为stuff类和things类。Behley等人[3]将任务扩展到LiDAR点云,提出了LiDAR全景分割。在本实验中,我们在SemanticKITTI数据集上进行全景分割,并在验证集上报告结果。对于评价指标,我们遵循[3]中定义的指标,其中与[18]中定义的图像全景分割指标相同,包括panoptic Quality (PQ)、segmentation Quality (SQ)和Recognition Quality (RQ),这些指标在所有类中计算。PQ†通过将每个stuff类的PQ交换到IoU来定义,并像PQ那样对所有类进行平均。由于panoptic segmentation中的类别包含了stuff和things两组,所以这些指标也分别在这两组上执行,包括PQTh、PQSt、RQTh、RQSt、SQTh和SQSt,其中通常使用panoptic Quality (PQ)作为第一标准。

在本实验中,我们使用提出的圆柱形分割作为分割方法,非对称三维卷积网络作为主干。使用语义分支输出物品类别的语义标签,引入实例分支生成实例级特征,并通过启发式聚类算法(实现中使用mean-shift)进一步提取物品类别的实例id。

我们将结果报告在表5中。可以发现,我们的方法比现有方法有更好的性能[26,17]。在PQ方面,我们提高了4.7%左右,特别是在物类方面,我们的方法在PQTh和PQSt方面明显优于the-art -art,有10%的大差距。实验结果证明了该方法的有效性和良好的泛化能力。

推广到激光雷达三维目标检测

激光雷达三维探测的目标是对点云中的多类目标进行定位和分类。其次,[47]首先利用三维体素化和三维卷积网络进行单级三维检测。在本实验中,我们采用第二种方法,分别将常规体素化和三维卷积替换为提出的圆柱形分割和非对称三维卷积网络。类似地,为了验证其可伸缩性,我们还将建议的模块扩展到SSN[53]。在nuScenes数据集上进行了实验,柱状分割也生成了480 × 360 × 32的图像。对于评估指标,我们遵循nuScenes中定义的官方指标,即平均精度(mAP)和nuScenes检测分数(NDS)。

结果如表6所示。PP + Reconfig[39]是基于PointPillar[21]的分区增强方法,而我们的SECOND + CyAs在主干相似的情况下性能更好,这表明了柱状分区的优势。然后,我们将提出的方法(即CyAs)扩展到两个基线方法,分别称为SECOND + CyAs和SSN + CyAs。通过比较这两种模型及其扩展,可以发现提出的圆柱形分割和非对称三维卷积网络能够持续提高性能,即使对于强基线SSN,这也证明了我们模型的有效性和可扩展性。

5. 结论Conclusion

在本文中,我们提出了一个圆柱形和非对称的三维卷积网络用于激光雷达分割,它保持了三维几何关系。具体而言,设计了柱面分割和非对称三维卷积网络这两个关键组件,有效且稳健地处理了室外激光雷达点云的稀疏性和变密度的固有困难。我们进行了大量的实验和消融研究,该模型在SemanticKITTI和nuScenes中均获得了第一名,并对其他基于LiDAR的任务,包括LiDAR全景分割和LiDAR 3D检测保持了良好的泛化能力。

学习总结:

确实巧妙,整体写的很简洁,把正方形体素改成了圆柱,这样远的点就会在一个大格子。但是也有一点疑问

1、如果是角度0和360其实在真实世界中是挨着的那这样会卷积卷积到吗?

2、文中对MLP的解释很少,逐点特征是怎么来的不太清楚

其他作者观点:
这里MLP的使用没有说的太清楚,查看代码Cylinder3D-master/network/cylinder_fea_generator.py的Line77-78可以看到,这个MLP相当于对每个点的坐标升维,然后对每个voxel内做channel-wise的max,得到每个voxel的特征。
原文链接: https://blog.csdn.net/wqwqqwqw1231/article/details/112061145

3、逐点细化模块没有很详细的说明其实就是MLP出来的

其他作者观点
https://blog.csdn.net/sunny_ran123/article/details/124590505
原作者源码没有公开这部分增益较小

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值