Point Stack:Advanced Feature Learning on Point Clouds using Multi-reso使用多分辨率特征和可学习池在点云上进行高级特征学习 阅读笔记

现有的点云特征学习网络通常包含采样、邻域分组、邻域特征学习和特征聚合等序列,以学习代表点云全局上下文的高语义点特征。不幸的是,由于采样操作,这样的过程可能会导致颗粒信息的大量丢失。此外,广泛使用的最大池特征聚合完全忽略了非最大点特征的信息,可能会加剧损失。由于粒度信息和非最大点特征信息的复合损失,从现有网络中得到的高语义点特征可能不足以表示点云的局部特征,从而可能阻碍网络区分精细形状。为了解决这一问题,我们提出了一种新的点云特征学习网络PointStack,采用多分辨率特征学习和可学习池化(LP)技术。多分辨率特征学习是通过在多层中聚合不同分辨率的点特征来实现的,使最终的点特征既包含高语义信息又包含高分辨率信息。另一方面,LP作为一种广义池化函数,通过具有可学习查询的注意机制计算多分辨率点特征的加权和,以便从所有可用的点特征中提取所有可能的信息。因此,PointStack能够提取高语义点特征,而关于粒度和非最大点特征的信息损失最小。因此,最终的聚集点特征可以有效地表示点云的全局和局部上下文。此外,点云的全局结构和局部形状细节都能被网络头很好地理解,这使得PointStack能够推进点云特征学习的最新技术。具体来说,PointStack在ScanObjectNN和ShapeNetPart数据集上的形状分类和部分分割方面优于各种现有的特征学习网络。

1 Introduction

点云是近年来最流行的3D对象表示形式之一(Qi等人,2017a;Yang等,2020;Y u et al., 2021a)。点云数据以低内存需求表示高度复杂的3D对象的能力使资源有限的代理能够实现实时的3D视觉应用。这与基于体素的表征相反(Graham等人,2018;Y an et al., 2018),其中内存需求与空间分辨率成三次比例。此外,点云是大多数三维传感器的原生数据表示,从而实现三维视觉直接在点云上可以最小化预处理的复杂性。这些优点表明,点云可以作为快速、准确的三维视觉神经网络的主要数据表示形式。

不幸的是,在将成熟的基于2D深度学习的特征学习技术应用于点云时存在一些挑战,例如,点云的不规则和无序性质。这些问题在Qi等人(2017a)和Qi等人(2017b)的开创性工作中得到了解决。

分别提出了基于多层感知器(MLP-based)的PointNet和PointNet++。在pointnet++框架中,通过多次重复关键点采样、邻域分组、邻域特征学习、特征聚合等步骤,产生高语义点特征。pointnet++相对简单的框架在文献中被广泛使用。例如,PointMLP (Ma等人,2022)通过合并残差连接并构建一个基于mlp的40层网络来增强框架,该网络在多个数据集上实现了最先进的分类性能。

尽管结果较好,但pointnet++框架最终的高语义点特征由于重复的关键点采样而失去了粒度信息,其中网络较深层的每个幸存点特征代表了点云中更大的空间体积。此外,用于特征聚合的最大池函数可能会加剧损失,因为它完全忽略了来自非最大点特征的信息。这种关于粒度和非最大点特征的信息的复合损失会极大地损害点局部特征上下文信息(如点云中对象的详细形状)的能力。

针对丢失颗粒状和非极大值点特征信息的问题,我们提出了两个假设。

(1)有利于任务特定头部获取各级分辨率的点特征。这使得网络能够在一定程度上保持粒度的同时提取高语义信息。

(2)综合所有点特征信息的广义池化函数可以提高聚集点特征的表示能力,因为非最大点特征信息的损失最小。

基于上述假设,我们提出了一种新的基于mlp的点云特征学习网络PointStack,具有多分辨率特征学习和可学习池化(LP)功能。PointStack从pointnet++的多个层中已经可用的各种分辨率收集点特性。然后将收集到的多分辨率点特征进行聚合,并提供给特定于任务的头部。因此,特定于任务的头部可以访问高语义和高分辨率的点特征。此外,PointStack利用了基于多头注意(MHA)机制的LP (V aswani等人,2017),对单分辨率和多分辨率特征聚合具有可学习的查询。LP是一种排列不变的广义池化函数,它不忽略来自非最大点特征的信息,而是根据其注意分数计算多分辨率点特征的加权和。因此,PointStack能够产生高语义的点特征,而关于粒度和非最大点特征的信息损失最小,这样就可以有效地表示点云的全局和局部上下文。这样,网络头部就能很好地理解点云的全局结构,分辨出点云的精细形状,从而使PointStack在点云特征学习方面取得了先进的进展。

针对丢失颗粒状和非极大值点特征信息的问题,我们提出了两个假设。

(1)有利于任务特定头部获取各级分辨率的点特征。这使得网络能够在一定程度上保持粒度的同时提取高语义信息。

(2)综合所有点特征信息的广义池化函数可以提高聚集点特征的表示能力,因为非最大点特征信息的损失最小

基于上述假设,我们提出了一种新的基于mlp的点云特征学习网络PointStack,具有多分辨率特征学习和可学习池化(LP)功能。PointStack从pointnet++的多个层中已经可用的各种分辨率收集点特性。然后将收集到的多分辨率点特征进行聚合,并提供给特定于任务的头部。因此,特定于任务的头部可以访问高语义和高分辨率的点特征。此外,PointStack利用了基于多头注意(MHA)机制的LP (V aswani等人,2017),对单分辨率和多分辨率特征聚合具有可学习的查询。LP是一种排列不变的广义池化函数,它不忽略来自非最大点特征的信息,而是根据其注意分数计算多分辨率点特征的加权和。因此,PointStack能够产生高语义的点特征,而关于粒度和非最大点特征的信息损失最小,这样就可以有效地表示点云的全局和局部上下文。这样,网络头部就能很好地理解点云的全局结构,分辨出点云的精细形状,从而使PointStack在点云特征学习方面取得了先进的进展。

具体地说,我们观察到PointStack在两个流行任务上表现出了优于现有各种特征学习网络的性能:形状分类需要全局上下文理解,部分分割需要全局和局部上下文理解。在使用ScanObjectNN数据集的形状分类任务中,PointStack在总体准确率和类平均准确率方面分别比现有特征学习网络高出1.5%和1.9%。

在使用ShapeNetPart数据集的部分分割任务中,PointStack在实例均值交集优于联合度量方面比现有的特征学习网络高出0.4%。这两个结果证明了PointStack的优越性,不仅对于需要全局上下文的任务,而且对于需要局部上下文的任务。

在提出的PointStack中,我们采用了点云的多分辨率特征学习框架。

  • 利用多分辨率的点特性为特定于任务的头部提供了高语义和高分辨率的点特性。因此,任务特定的头部可以在不损失粒度的情况下获得高语义信息。
  • 我们提出了一种针对点云的置换不变可学习池(LP),作为对广泛使用的最大池的改进。与最大池相比,LP是一种广义池,因为它通过多头注意机制结合了来自多分辨率点特征的信息,而不是只保留最高值的特征。
  • 我们证明PointStack在两个流行的任务上优于各种现有的点云特征学习网络,这两个任务包括ScanObjectNN数据集上的形状分类和ShapeNetPart数据集上的部分分割。

本文的其余部分组织如下。第2节讨论了与特征学习相关的现有工作。第3节详细描述了提议的PointStack。第4节给出了实验结果,并进行了广泛的讨论。第5部分对本文进行了总结。

2. 相关工作

点云上的相关工作特征学习。大多数用于点云数据的现代特征学习神经网络源自Qi等人(2017a)的开创性工作PointNet。在PointNet中,对原始点云应用一系列逐点多层感知器(MLP)块产生高维点特征。然后通过最大池化操作聚合点特征,得到一个固定长度的全局特征向量。PointNet++ (Qi et al., 2017b)通过抽样、分组和局部组特征聚合来考虑点的局部结构,从而细化PointNet。首先,通过最远点采样获得关键点集合。然后,对每个关键点周围的相邻点进行分组,并对每组点进行PointNet操作,得到每个关键点的邻域全局特征向量。

从那时起,为了学习点云的细粒度局部几何特征,人们进行了大量的研究。例如,Wang等人(2019)提出了一种基于图的EdgeConv学习点之间关系的方法。Wu等人(2019)介绍了一种基于卷积的网络,通过MLP网络和核密度估计学习适当的卷积核。Hamdi等人(2021)提出了一种多视角方法,其中网络回归对象的最佳视角进行3D识别。最近,Ma等人(2022)引入了PointMLP,这是一种相对深入的基于mlp的点云网络。该网络基于原始PointNet++,具有额外的残差连接和几何仿射模块。由于存在残差连接,PointMLP设法包含深层层,其中性能最好的变体由40层组成。

具有多分辨率特征的深度学习。多分辨率特征在基于图像的计算机视觉中得到了广泛的研究。各种传统的图像处理技术,如Dalal和Triggs(2005)和Lowe(2004)引入的技术,利用一个特征金字塔,利用多层不同分辨率(尺度)的特征进行下游任务预测。特征金字塔框架在深度学习中仍然被广泛使用,特别是在Lin et al.(2017)引入特征金字塔网络(feature pyramid Network, FPN)之后。在FPN中,为了匹配输出特征图的大小,对多个分辨率的特征图进行下采样或上采样,并将其拼接在一起,得到一个兼具高分辨率和高语义信息的输出特征图。在点云领域,Hui等人(2021)提出了一种基于变压器的特征提取器,它学习多尺度特征图,用于大规模位置识别。

在本节中,我们首先介绍在一个基于深度mlp的网络PointStack上实现的多分辨率特征学习的概述。在概述之后,我们将介绍置换不变的可学习池。


多分辨率特征学习多分辨率特征学习的概念被广泛应用于计算机视觉的各种下游任务(Lin et al., 2017;Ghiasi等人,2019;Kirillov等人,2019)。其主要方法是利用各个解析层的语义特征构建一个特征金字塔。因此,特征金字塔具有高语义和高分辨率的信息,常常需要识别不同尺度的物体。

图1:PointStack的特征学习主干。残差块residual block (PointMLP的一个阶段,Ma等人(2022))学习减少长度的输入点特征和输出点特征的底层表示。对于m个重复的残差块,每个块的输出点特征通过可学习池化(learnable pooling, LP)进行池化,并串联起来形成堆叠的点特征。然后应用最终的LP得到多分辨率特征,供网络头使用。

---------------------------------------------------------------------------------------------------

在3D点云域中,利用多分辨率特征的潜在好处来自于这样一个事实:与2D图像相比,3D形状明显更复杂。重要的纹理或曲线的3D形状可能只能在最高的粒度级别观察到。由于在现有方法中构建高语义特征是以失去粒度为代价的,因此3D形状的细节可能会被掩盖。因此,多分辨率点特性既可以收集足够的语义信息,又可以在一定程度上保持粒度。

不同于在同一点特征上使用不同内核大小的多重卷积来创建多尺度特征图的PyramNet (Zhiheng and Ning, 2019),我们选择利用现有基于mlp的网络中已有的m种不同分辨率的多点特征,如图1所示。PointStack首先学习具有m个重复残差块的点的底层表示,其中每个块的输出与相应的输入相比具有较低的分辨率但较高的语义信息。我们使用剩余块而不是像Hui等人(Pyramid point cloud transformer for large-scale place recognition.2021)中那样的变压器块,因为剩余块在内存需求方面更有效。这是因为,相对于输入大小n,每个变压器块中的自我注意机制的内存复杂度为O(n2)。

在学习了适当的表示之后,PointStack对每个输出点特性执行单分辨率池化,如图1中左下角的虚线框所示。也就是说,PointStack从第i层的每个输出点特征(Ni特征向量的PFi)池中产生长度固定为Nm的PFpooled i,其中PFpooled包含特定分辨率级别的重要特征。

在单分辨率池化之后,PointStack连接所有的PFpooled i,通过多分辨率池化(图1中右上角的虚线框)形成和处理堆叠的池化点特征,堆叠-PFpooled,以产生一个全局特征向量。由于全局特征向量是由m个分辨率的特征得到的,它包含了高语义特征和高分辨率特征的信息。因此,特定于任务的头部可以以最小的粒度损失访问高语义信息。

需要注意的是,多分辨率特征学习框架可以在不固定单分辨率池化输出特征长度的情况下实现。然而,我们的经验发现,固定长度的单分辨率池大大提高了分类性能。这种现象可能是由于m种不同分辨率的点特征具有不同的条目数。即分辨率最高的点特征PF1的特征向量明显多于分辨率最低的点特征PFm。特征向量数量之间的差异可能会对多分辨率LP产生不利影响。因此,我们纳入单一决议池化过程,从m个分辨率级别产生相同数量的特征向量。这一解释得到了第4节消融实验结果的支持

3.2可学的池化层

最近在点云上进行特征学习的工作经常使用池化函数。池化函数是一个重要的技巧,它可以从任意大小的输入点生成固定长度的全局特征。由于一个三维形状可以用同一组不同顺序的点来表示,池化函数应该是排列不变的。这种需求的自然选择是max pooling函数。不幸的是,max pooling函数只保留了最高值点特征,而完全忽略了非最大值点特征,这导致了大量的信息丢失。


为了防止这一问题的发生,我们提出了一种广义池化函数——可学习池化(LP),该函数根据点特征与可学习参数之间的相关性,计算所有点特征的加权和进行聚合。由于LP不忽略来自非最大点特征的信息,因此它可以用于单分辨率和多分辨率点特征的聚合,而不会丢失信息。

图2:可学习池(LP)模块的结构。给定一个点特征输入,LP对特征进行变换,使特征的通道大小与可学习查询(LQ)的通道大小匹配。然后使用多头注意(MHA)机制产生固定长度的集合点特征。对于MHA,我们将输入点特性设置为键和值的源,并将LQ设置为查询。

---------------------------------------------------------------------------------------------------

在结构上,LP利用了多头注意(MHA) (V aswani等人Attention is all you need. 2017),可以被视为一个信息检索过程,其中一组查询用于根据查询和键之间的相关性从值中检索信息。我们设置键和值都来自同一个点特征张量,而查询是可学习的参数。在这个设置中,我们可以考虑通过网络来学习适当的查询,这样检索到的点特征(值)就与学习目标高度相关。由于查询由学习目标直接监督,通过所有点特征的加权和得到值,与完全忽略非最大点特征的最大池化函数相比,所提出的LP能够产生具有代表性的聚集点特征,且信息损失最小。

提出的LP结构如图2所示。提出的LP模块架构的灵感来自Lee等人(2019年)引入的Multihead Attention (PMA)模块,但设计为更紧凑的形式。也就是说,我们只利用线性变换来匹配输入点特征的通道大小到所需的输出通道大小和多头注意机制。

注意,在这种设置中,LP是一个对称函数,因此该函数对点云中的点是置换不变的。

属性1 提出的可学习池是一个对称函数,它对点云的点的排列是不变的。可以在附录A.1中找到。

LP的排列不变性的关键在于使用了逐点共享mlp,以及键和值都来自同一行排列特征矩阵的事实。由于键和值都由同一个置换矩阵行置换,且置换矩阵是正交的,因此缩放的点积注意机制变成了置换不变量。除了附录A.1中的理论证明,我们还在第4节中展示了经验结果,以演示对于输入点的各种排列,带有LP的PointStack和带有max池化输出的PointStack的标准差之间的相似性。

4 Experiment and Discussion

在本节中,我们描述用于实验的数据集、网络细节和训练设置。然后对实验结果进行了展示和讨论。

4.1 Implementation Details

我们使用三个不同的数据集:ModelNet40 (Wu et al., 2015)、ScanObjectNN (Uy et al., 2019)和ShapeNetPart (Yi et al., 2016),在两个任务上评估提出的PointStack。我们选择这两个任务,是因为它们代表了点云数据广泛研究的下游任务的两个极端。也就是说,分类需要学习整个点云的全局上下文,而分割则需要学习每个点的局部上下文。在接下来的实验中,分类任务的输入点数设置为1024,分割任务的输入点数设置为2048。注意,在实验中使用了最难的ScanObjectNN变体(PB_T50_RS),其中对象受到平移、旋转和缩放变换的干扰。

在所有的实验中,我们使用四个残差块作为PointStack的特征学习主干,然后附加一个任务特定的头部。我们根据Ma等人(Rethinking network design and local geometry in point cloud: A simple residual mlp framework. 2022)设置剩余块的超参数。任务特定的头只由MLP块组成,其中每个块由仿射变换、批处理归一化(Ioffe和Szegedy, 2015)、ReLU非线性和dropout (Srivastava等人,2014)层组成。每个头部都有一个最终的仿射变换层,以匹配输出张量的形状与任务特定的要求。对于可学习池,我们在单分辨率池和多分辨率池中分别设置可学习查询的大小为64 × 1024和1 × 4096。由于有四个剩余块,我们对单分辨率池中的四个分辨率级别使用四个独立的可学习查询。

我们在RTX 3090 gpu上使用PyTorch库(Paszke等人,2019)训练网络。网络使用带有余弦退火调度的SGD优化器(Loshchilov和Hutter, 2016)进行优化,无需热重启。初始学习率和最小学习率分别设置为0.01和0.0001,我们将标签平滑(Szegedy et al., 2016)纳入交叉熵损失。我们通过对所有数据集应用随机转换和对ScanObjectNN数据集应用随机旋转来执行数据扩充。对于ModelNet40和ScanObjectNN上的形状分类任务,我们将最大epoch分别设置为300和200,批大小设置为48。对于ShapeNetPart上的部分分割任务,我们将批大小设置为24,最大epoch设置为400。

4.2 Shape Classification

我们使用ModelNet40和ScanObjectNN数据集在形状分类任务上评估了提出的PointStack。ModelNet40是一个合成数据集,包含了从计算机辅助设计(CAD)网格中采样的12,311个点云中的40种不同形状类别。另一方面,ScanObjectNN从真实的物体扫描中获取点云,因此,样本包含背景点和遮挡。大约有15种不同形状的15000朵点云。

表1中的实验结果表明,PointStack在真实数据集(即ScanObjectNN数据集)上较之前的基于mlp的网络PointMLP (Ma等人,2022)在平均OA和平均mAcc上分别高出1.5%和1.9%。PointStack也比其他现有的工作,如基于多视图投影的MVTN (Hamdi等人,2021年)提高了4.1%,基于变压器的Point-TnT (Berg等人,2022年)提高了3.4%。注意,PointStack减少了OA和mAcc性能之间的差距,证明了PointStack比现有的作品更少偏向于某些类。形状分类结果证明,通过多分辨率特征学习和LP最小化关于粒度和非最大点特征的信息损失,有利于依赖于点云全局上下文的任务。

我们注意到PointStack在合成数据集(即ModelNet40)上的总体精度表现为93.3%,这并不优于现有的工作。我们推测,这个问题的根本原因是ModelNet40中可用的训练样本数量明显较少。为了支持这种推测,我们在ScanObjectNN数据集的一个小子集上训练PointStack和PointMLP,我们在第4.6小节中详细讨论。

我们使用ShapeNetPart数据集(一个从ShapeNet数据集衍生的合成数据集)来评估在零件分割任务上提出的PointStack。它包含16,881个预先对齐的点云形状,可分为16个形状类和总共50个分割类。

4.3 Part Segmentation

从表1的实验结果中,我们观察到PointStack至少比现有的特征学习网络高出0.4%。注意,PointStack在没有使用Xiang等人(Walk in the cloud: Learning curves for point clouds shape analysis. 2021)使用的投票策略的情况下实现了如此高的性能,其中每个输入点云被随机缩放多次,预测的对数被平均来产生最终的类预测。值得注意的是,PointStack在一个简单的基于mlp的网络中实现了这样的性能,而现有的基于mlp的网络(Ma A simple residual mlp frameworket al. 2022)的最佳性能比PointStack低1.1%。


部分分割结果,尤其是对现有基于mlp的网络的显著改进,证明最小化关于粒度和非最大点特征的信息损失对于需要全局和局部上下文的任务是至关重要的。我们在图3中可视化部分分割结果,以演示PointStack的高性能。

表1:ModelNet40、ScanObjectNN和ShapeNetPart上各种模型的比较。我们展示了整体精度(OA)、类平均精度(mAcc)和实例mIoU (insta . mIoU)。x±y表示多次训练后结果的平均值和标准差。

---------------------------------------------------------------------------

4.4消融研究

我们使用ScanObjectNN数据集开展了一项消融研究,以调查PointStack的三个主要成分对分类性能的影响。这三个主要组成部分是多分辨率特性、基于lp的单分辨率池化和基于lp的多分辨率池化。

首先,我们研究了多分辨率特征的影响。我们将最大池化函数应用于四个不同分辨率级别的点特征,得到四个单分辨率的全局特征向量。与PointStack一样,我们将四个单分辨率的全局特征向量连接起来,然后应用另一个最大池化操作,该操作产生多分辨率的全局特征向量。


从表2中,我们可以观察到,加入多分辨率特性后,OA和mAcc性能分别提高了0.4%和0.5%。该结果证明通过多分辨率特征学习保持粒度有利于提高网络的分类性能。


图3:PointStack部分分割事实(G.T.)和预测(Pred)的可视化。定性地说,这些预测几乎与实际情况相同。

表2:对ScanObjectNN数据集上PointStack主要组件的消融研究。x±y表示几次训练后结果的平均值和标准差。

---------------------------------------------------------------------------

其次,我们研究了可学习池化层(LP)的影响。我们将单分辨率池化过程中的最大池化函数替换为LP函数。当利用LP对4个分辨率的每一级进行特征向量池化时,OA和mAcc评分分别提高了0.7%和0.8%。随后,当LP用于多分辨率池化时,PointStack在OA和mac上分别获得0.4%和0.6%的性能提升。这一结果表明,在单分辨率和多分辨率池中适当地利用来自所有点特征的信息对于产生有利于网络分类性能的相关表示至关重要。

此外,我们强调单分辨率LP工艺的重要性。正如在第3节中提到的,单分辨率LP使PointStack能够从m分辨率的每一层中池取相等数量的特征向量。在表2中,对于OA和mAcc,没有单分辨率LP的PointStack的性能降低了0.9%,并且方差更高。这一结果表明,标准化m分辨率每一层的特征向量数量对于多分辨率LP实现高性能是至关重要的。

4.5可学习池化的置换不变性

在第3节中提到,任何点云特征学习网络的池化函数都应该是置换不变性的。也就是说,即使输入点的顺序改变了,池化函数也应该能够产生相同的输出。


为了评估可学习池的置换不变属性,我们比较了PointStack的两种变体:一种是最大池化层,另一种是的可学习池化层。具体来说,我们训练了这两个变量,并评估了10个输入点的随机排列的OA的标准差。

表3:ScanObjectNN数据集上形状分类的OA(σOA)标准差比较。我们使用十种随机排列来计算σOA值。

表4:ScanObjectNN数据集的性能比较。OAF和OAS分别是在ScanObjectNN数据集的完整和子集上训练时的分类性能。

从表3可以看出,具有可学习池的网络与具有最大池的网络具有相似的标准差,其中标准差仅为0.04%。由于标准差既小又相似,我们确认可学习池具有类似于最大池的置换不变性质。

---------------------------------------------------------------------------

4.6训练样本数量的限制我们观察到,尽管PointStack在ScanObjectNN数据集上实现了最先进的性能,但其性能并不优于ModelNet40数据集上的现有工作。根据这一观察,我们推测点堆栈性能低下的潜在原因可能是ModelNet40数据集中可用的训练样本不足。ModelNet40数据集有9843个点云,用于训练40个不同的类。相比之下,ScanObjectNN数据集的main-PB\u T50\u RS变体有11000多个点云,仅用于训练15个类。

为了验证大量训练样本的必要性,我们在ScanObjectNN数据集的一小个子集上训练PointStack和PointMLP(ModelNet40的最先进网络)。子集的构造使得每个类的训练样本数与ModelNet40中每个类的平均训练样本数相匹配。这大致相当于每个类246个样本。

在训练过程中,没有应用增强方法。

如表4所示,当训练样本数量不足时,PointStack的整体精度低于现有基于MLP的网络性能PointMLP。与使用完整的ScanObjectNN数据集训练时相比,PointStack和PointMLP的性能分别降低了15.2%和11.5%。结果表明,足够的训练数据大小对于点堆栈实现最先进的性能至关重要。关于这种要求的一种可能解释是,由于多个可学习池,点堆栈比现有的基于MLPB的网络具有更多的可训练参数。然而,我们强调,当使用有限数量的训练样本进行训练时,点堆栈仍然可以获得具有竞争力的性能,并且现代数据集(如ScanObjectNN)具有足够大的训练样本。

5结论

最近的点云特征学习网络在执行下游任务时经常使用源自最深层的聚合点特征。聚合点特征可能包含高语义信息,但由于采样操作和最大池,分别会损失有关粒度和非最大点特征的信息。在这项工作中,我们提出了一种新的基于MLP的特征学习网络PointStack,其中任务特定头通过广义池函数learnable pooling(LP)获得聚合多分辨率点特征的输入。因此,聚合的点特征可以有效地表示全局和局部上下文,并使网络头能够很好地理解点云中对象的全局结构和局部形状细节。根据经验,我们观察到,在形状分类和零件分割任务中,点堆栈优于各种现有的特征学习网络。

在未来,值得研究点堆栈作为其他下游任务(如三维物体检测和形状完成)的特征学习主干网络的有效性。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值